Читаем Книга 3.0 Слушайте! полностью

Книга 3.0 Слушайте!

Так же, помимо этого, сделать возможность добавлять голосовые пометки, которые могли бы преобразовываться в текст. Эти пометки, надо как-то так интегрировать, что бы их можно было не только проработать на любом цифровом устройстве, но и отправить в интернет, к примеру, на форум обсуждения данной книги. Что бы как автор, так и читатели могли проанализировать данную критику. Помимо онлайн сервисов не стоит забывать и о необходимости сохранения закладок, экспорта их в разные форматы и на разные устройства. Очень часто разработчики хотят привязать пользователя к своим онлайн сервисам. Т.к. им выгодно постоянно держать руку на пульсе и контролировать пользователей, а вот хороших программ для офлайн становится все меньше. До сих пор даже нет нормальной программы для создания добротной библиотеки на ПК. Мне приходится самому раскладывать все книги в папочки и пользоваться разрозненным софтом типа архивариуса, и эврифинг. Есть жалкие подобия создания каталогов книг, но пока не нашел не одного достойного. Но вернемся непосредственно к синтезу речи.

Синтез речи при дублировании фильмов.

Уже упоминал такую возможность в разделе «Программа для чтения субтитров.». И такие программы уже есть. Так же у меня есть надежды, что на YouTube появится возможность дублирования видео, используя субтитры и синтезаторы речи, но вот YouTube пока до этого не дорос. Хотя повторюсь технических проблем, которые бы этому препятствовали, нет.

Развивая эту тему, еще хотелось бы отметить, что было бы прекрасно, что бы на YouTube появилась не только возможность прослушивать дублированные видео на родном языке, но и более широкий функционал: выбор голоса, тембра, выразительности, скорости проговаривания и т.д...

Особенно важна настройка и гибкая регулировка скорости воспроизведения. Например, хотелось бы что бы была возможность автоматического замедления или паузы того или иного участка видео, если текст не успевает проговориться. Скажу из личного опыта, такое, к сожалению, на данный момент часто встречается и приходится искать золотую середину, между скоростью воспроизведения субтитров, а иногда видео и пониманием произнесенного. Т.е. если сделать что бы произносило медленно и разборчиво, звук не будет успевать за видеорядом, а если сделать что бы произносило очень быстро, то попросту не будет понятно, что произносится. Думаю, для хороших программистов не составило бы труда создать функцию автоматической подгонки скорости произносимого текста к видеоряду.

Синтез речи и понимания речи машиной.

Помимо проговаривания текста есть еще одна весьма важная задача, которая ставится перед ИТ. Она является как бы противоположностью синтеза речи и её решить труднее. Синтез речи, грубо говоря, и очень упрощенно, это произнесение последовательности конкретных символов – букв. И с эти машины уже худо-бедно справляются, т.к. буквы одинаковы и их не много. То, что человеку не привычно слушать монотонно произнесенные буквы с неправильным ударением, это уже другой вопрос. Но в принципе, с проблемой синтеза речи, справились. С пониманием речи все обстоит намного сложнее, т.к. звуки человеческой речи, которые машине предстоит преобразовать обратно в буквы, весьма разнообразны. Разнообразность их вызвана массой факторов: личной индивидуальной особенностью произносящего, окружающей обстановкой, микрофоном, и многим другим. Поэтому так трудно из голоса, особенно не знакомого вычленить и идентифицировать те или иные звуки фразы, слова, буквы. Тем не менее, и в данном направлении уже есть кое какие успехи. Думаю, уже сейчас можно было бы использовать эти две технологии вместе, с предварительной тренировкой второй и подстройке к конкретному голосу собеседника, конкретному микрофону и т.д. Эту идею уже взяли на вооружение и используют некоторые кол-центры и др. организации, умеющие экономить свои деньги и делать перспективные инвестиции. Надеюсь, что в будущем именно связка этих двух технологий будет объединена в одной программе, которую любой обычный пользователь сможет бесплатно установить и использовать на ПК. Возможно, синтез и понимание речи станет визитной карточкой многих устройств и частью интерфейса ОС способной общаться с людьми привычным для них способом. А уже в дальнейшем, при создании хорошего аналитического ядра, подключенного к мощной базе, границы будут стерты еще больше. Но это уже относится больше к оптимистичным планам и далекому будущему. Тем не мене, раз данные технологии есть уже сейчас, именно проблем в том, чтобы использовать их в одном пакете, нет ни каких препятствий.

Читаем Книга 3.0 Слушайте! полностью

Книга 3.0 Слушайте!

Похожие книги

Все жанры