Преобразование речи в текст с помощью онлайн-сервисов. Голосовой ввод текста: какой программой нужно воспользоваться

Оставьте комментарий 6,950

Современные технологии не стоят на месте, и сегодня для набора текста уже не обязательно пользоваться стандартной клавиатурой. Голосовой ввод есть на большинстве устройств. Тем не менее далеко не все пользователи знают, как его правильно применять, и какую функцию он выполняет.

Для чего нужен ввод голосом

пользоваться поисковиками намного быстрее;
набирать сообщения в социальных сетях и популярных мессенджерах;
отвечать на СМС-сообщение, находясь за рулем;
быстро находить контакт в записной книжке телефона;
набирать текст в "Гугл-документах".

В браузере Google Chrome

Чтобы быстро набрать текст в режиме онлайн, достаточно выполнить несколько простых шагов:

Включить микрофон.
Открыть документ в браузере «Хром».
Нажать «Инструменты» и выбрать «Голосовой ввод». Должна появиться иконка микрофона.
Нажать на этот значок (он должен загореться красным цветом) и начать диктовку.
Чтобы закончить ввод текста, достаточно еще раз кликнуть на иконку микрофона. Он должен стать серым.

Слова нужно произносить максимально четко, медленно и громко. Если использовать встроенный микрофон ноутбука, то система не поймет половину слов - и на выходе получится нечитаемый текст.

В некоторых ситуация может понадобиться надиктовать заметку докладчика для презентации. В этом случае необходимо:

Убедиться, что микрофон хорошо работает.
Открыть презентацию.
Нажать «Инструменты» и выбрать «Продиктовать заметки…». После этого должен появиться значок микрофона.
Нажать на его иконку и начать диктовку.
Чтобы прекратить голосовой ввод, необходимо повторно нажать на значок микрофона.

При этом требуется хорошее подключение к интернету, иначе функция не активируется.

На телефоне

Установить курсор таким образом, чтобы появилась стандартная клавиатура.
Нажать на значок с микрофоном. Обычно он находится слева от клавиши пробела. Если иконки нет, то нужно зажать значок с изображением Земли (смена языка) и выбрать «Голосовой ввод Google».
После этого на экране появится изображение микрофона и автоматически начнется запись текста.
Когда диктовка будет завершена, достаточно подтвердить запись.

Подобным образом можно набирать СМС-сообщения, искать людей в записной книжке, пользоваться поисковиками, писать заметки и многое другое.

На Mac

Чтобы активировать интерактивный ввод текста, необходимо:

Перейти в меню Apple (клавиша с изображением яблока).
Нажать на «Системные настройки» и кликнуть на «Клавиатура». После этого необходимо активировать функцию «Диктовка».

В этом меню можно произвести следующие настройки:

активировать функцию улучшенной диктовки (работает в оффлайне);
выбрать язык и диалект;
указать используемый микрофон (встроенный или внешний);
задать наиболее удобную комбинацию клавиш, которая будет использоваться для быстрого начала и окончания записи.

Если в OS Mac установлена программа Siri, то активировать диктовку можно и через нее.

Открыть документ или любое другое текстовое поле.
Установить точку в том месте, откуда должен начать набираться текст.
Нажать заданную ранее комбинацию клавиш (по умолчанию запись активируется при двойном клике на Fn). Также можно перейти во вкладку «Правка» и выбрать там «Начать диктовку».
Произнести текст и сохранить его.
Завершить диктовку нажатием на «Готово» или Fn.

Частые ошибки

Иногда функция не работает или выдает ошибки. Чаще всего пользователи сталкиваются со следующими проблемами:

«Вас плохо слышно». Если на экране появилась такая ошибка, то необходимо перейти в более тихое место, подключить другой микрофон или отрегулировать громкость устройства.
«Голосовые команды не работают». В этой ситуации необходимо говорить медленнее и громче. Между голосовыми командами рекомендуется делать паузы.
«Микрофон не работает». Если на экране всплывает такая ошибка, то нужно проверить, работает ли он на другом устройстве. Если микрофон исправен, необходимо проверить его настройки или перезагрузить компьютер или телефон.

Зная, как включить голосовой ввод, можно значительно упростить себе жизнь. Подобным образом пользователи могут набирать не только короткие текстовые сообщения, но и целые рассказы или инструкции. На планшетах эта функция активируется одним из описанных выше способов.

Здравствуйте, уважаемые читатели. Сегодня я подробно расскажу про технические настройки и нюансы речевого набора текста голосом на компьютере. Как вы знаете способ, который я предложил в своём бесплатном видеокурсе « » — является мобильным и не требует наличие компьютера и платных программ. По многочисленным письмам можно судить, что курс очень понравился. Но также есть много вопросов, — А как набирать тексты голосом на компьютере? Причём из писем я понимаю, что интересен не, только способ набора текста голосом на компьютере, но и перевод аудио в текст.

Конечно, в комментариях и письмах я отвечал и рекомендовал единственный, на мой взгляд, подходящий для этого онлайн сервис «Блокнот для речевого ввода ». И теперь я уже получаю письма с просьбой рассказать о технических настройках компьютера (микрофона и звуковой карты) и как аудио перевести в текст.

В общем, секрет работы с данным сервисом очень прост, — у вас должен быть хороший, чувствительный микрофон. Иначе, качество распознания очень сильно хромает. Но и на этот случай есть выход.

1. Набор текста через микрофон.

2. Набор текста через виртуальный аудио кабель.

Прежде чем приступить к набору текста голосом при помощи голосового блокнота, нужно сделать кое какие настройки браузера Google Chrome. На данный момент, только в этом браузере доступна возможность набирать текст голосом. Нам понадобится установить два дополнительных расширения.

Как набрать текст голосом в голосовом блокноте

Для первого способа, дополнительных настроек делать не надо. Всё готово к набору текста голосом через голосовой блокнот.

Переходим на главную страницу блокнота, выставляем нужные параметры, и можно диктовать текст голосом. Иконка микрофона используется для ввода отдельных фраз или предложений. Для непрерывного ввода текста используйте кнопку «Включить запись».

Примечание: при первой попытке набрать текст голосом в верхней части браузера появится предупреждение с запросом на доступ к микрофону. Вам нужно нажать на кнопку «Разрешить».

Как заполнять любые поля и формы голосом в браузере Google Chrome

С помощью установленного ранее расширения «Голосовой ввод текста» Вам доступна функция заполнения любых полей в браузере. Например, в регистрационной форме или оставляя комментарий.

Для того чтобы заполнить отдельное поле в форме, — нажмите правую кнопку мышки в данном поле и в контекстно-зависимом меню выберите пункт «SpeechPad».

Разрешите доступ к микрофону и диктуйте текст.

А если вам нужно надиктовать несколько предложение, к примеру, комментарий или сообщение на форуме, нужно выполнить следующие действия.

Нажать правую кнопку мышки рядом с полем для ввода и выбрать в контекстно-зависимом меню все тот же пункт «SpeechPad». Но на этот раз откроется новое окно и включится запись. Диктуйте текст, а затем используя буфер обмена перенесите текст в нужную форму.

Комбинация клавиш для работы с буфером обмена:

Ctrl+A – выделить текст

Ctrl+C – скопировать в буфер обмена

Ctrl+V – вставить из буфера обмена

Вот так вот без особых хитрых настроек, при наличии доступа в Интернет можно вводить текст голосом на компьютере. Качество распознания будет зависеть от микрофона и Вашей дикции.

А теперь разберём возможность перевода аудио в текст. Этот метод называется – транскрибация. Данный сервис позволяет переводить аудио в текст из звуковых и видео файлов. И опять же упор делается на хороший микрофон.

Но в технических характеристиках микрофонов я не разбирался, и говорить какой хороший а какой нет, не стану. Скажу лишь, что у меня был обычный настольный микрофон Genius и он меня устраивал. Ещё вчера я начал подготовку к данной статье с использование этого микрофона, ошибок при распознании голоса было не много. За ночь, наш домашний питомец (кот) совершил диверсию и перегрыз провод микрофона. Не подумайте, что только микрофона, — нет, не только.

И для продолжения подготовки к статье я воспользовался наушниками с микрофоном. И должен сказать, это просто земля и небо. Микрофон на наушниках, — это просто труба. Толи от старости, толи он такой убогий и был, ну это просто убийца нервных клеток. Так, что делайте выводы.

Ну, да ладно, давайте переходить в к выполнению поставленной задачи.

Как преобразовать аудио в текст

Способ №1

Данный способ, не требует ни каких настроек. Принцип заключается в следующем. Вы воспроизводите звуковой файл или видео, звук идёт через колонки, а микрофон захватывает звук из колонок. Вы также можете включить запись на диктофоне или смартфоне, и микрофон будет захватывать звук с этих устройств.

Сервис предоставляет возможность захвата аудио из видео YouTube, видео файлов и аудио файлов. Видео и аудио файлы при этом могут быть расположены как в интернете, так и на Вашем компьютере.

Для начала, рассмотрим пример открытия видео с YouTube. Для этого потребуется ID данного видео. Этот ID нужно вставить в поле «URL медиа файла для проигрывания» и нажать кнопку «Обновить».

Такой уникальный ID есть у каждого видео на YouTube. Увидеть его можно в адресной строке браузера.

Теперь рассмотрим пример с открытием файла на вашем компьютере.

Сначала указываете тип файла, аудио или видео. Затем нажимаете на кнопку «Выберите файл» и выберите файл на компьютере. Выбрав файл, нажимаете кнопку «Открыть».

Следующим этапом располагаете, микрофон рядом с колонками вашего компьютера или скажем диктофоном или смартфоном, и включаете запись.

Способ №2

Данный способ позволяет исключить микрофон из цепочки преобразования аудио в текст. Звук будет напрямую передаваться из проигрывателя в голосовой блокнот. И уже не важно, какой у вас микрофон.

Но для этого потребуется отдельная программа — Virtual Audio Cable . Данная программа создаёт виртуальный аудио кабель и передаёт аудиопоток между приложениями. Программа эта платная, стоит от 25$ до 50$. Но можно воспользоваться бесплатной версией. В бесплатной версии есть ограничение на количество виртуальных кабелей. Можно создать только 3 кабеля. А ещё женский голос постоянно напоминает, что это бесплатная версия если использовать аудиорепитер. Но скажу вам честно, можно обойтись и без него. Зато пробная версия не ограничена по времени. В видеоуроке я покажу, в чем хитрость.

Итак, для начала скачиваем программу «Виртуальный аудио кабель», ссылка выше.

После того, как вы скачаете архивный файл на компьютер, его нужно распаковаться. Для этого можно воспользоваться архиватором или простым копирование файлов из архива в новую папку.

Установка программы VAC

Установка стандартная и не потребует от вас дополнительных знаний и умений. Просто следуйте указаниям мастера установки.

Теперь Вы ни звука не услышите из ваших колонок, зато весь звук через виртуальный аудио кабель будет передаваться в голосовой блокнот. То, что нам и нужно.

Примечание: если вы всё же захотите слышать звук, тогда следует перейти в папку, куда вы распаковали архив программы и запустить аудиорепитер. Указав в качестве устройства ввода виртуальный кабель, а в качестве устройства вывода колонки.

На этом все технические моменты набора текста голосом на компьютере, с помощью голосового блокнота, раскрыты. Если, что то рассказал не понятно, пишите в комментариях, постараюсь дополнить и помочь советом. А ещё, если писать статьи на сайт, самостоятельно вы не можете по какой-то причине, то можно на бирже. Сегодня так поступают многие владельцы сайтов, доверяя дело профессионалам.

Всем желаю удачи.

Голосовой набор текста подразумевает под собой ввод, который осуществляется не руками, а голосом. Для многих пользователей это покажется отличной альтернативой традиционному способу. При этом необходимо учитывать некоторые тонкости: на качество работы влияют такие показатели как четкость речи, характеристики микрофона ну и, собственно, сами программы. Для комфортной работы потребуется установить качественную аппаратуру, выбрать наиболее удобную для себя программу.

Онлайн-сервисы

В браузере Google Chrome есть возможность осуществлять голосовой ввод с использованием только голоса и микрофона, используя Speechpad (Голосовой блокнот). По отзывам интернет-пользователей – это один из наиболее качественных ресурсов , который позволяет записывать речь в текст практически без ошибок. Спичпад рекомендуется использовать только в браузере Google Chrome, так как его работа в остальных браузерах будет некорректной.

С сервисом можно работать в обозревателе, либо использовать расширение. Если необходимо расширение, то его следует установить в браузер. При нажатии на значок появится возможность перейти сразу на сайт сервиса. Кроме этого, расширение позволяет выставлять ряд определенных настроек для PRO-пользователей. Позволяет осуществлять интеграцию с операционной системой, благодаря чему текст можно печатать в любом открытом приложении, где есть возможность ввода, например, Microsoft Word или адресная строка браузера.

Как только расширение установится, рядом с адресной строкой браузера появится соответствующий значок. Если нажать на него, можно открыть меню, которое позволит перейти сразу на сайт. Какие-либо дополнительные параметры в меню выставлять не требуется. Также можно воспользоваться прямой ссылкой на загрузку Speechpad .

Чтобы использовать в браузере Google Chrome, следует запустить страницу для голосового ввода, а затем в нижней части окна выбрать нужный язык . Затем следует разрешить использование микрофона, нажав соответствующий значок. Этот сервис позволяет преобразовывать в текст короткие фразы, которые можно при помощи сочетания клавиш Ctrl+C скопировать и перенести в нужный редактор.

VoiceNote 2

Сервис, который создан в компании Google. Соответственно, работает только в браузере Google Chrome, при этом обозреватель должен быть обновлен до последней версии.

Чтобы установить расширение Войснот можно или сделать следующее:

После установки рядом с адресной строкой браузера появится иконка приложения. Для дальнейшей работы необходимо кликнуть на значок. Когда откроется окно программы, нажать сбоку на значок микрофона.

Для расстановки знаков препинания читаем громко и четко.

Считается одним из лучших сервисов для преобразования голоса в текст. Может автоматически расставлять знаки препинания. Присутствует возможность редактирования , автосохранения отметок времени и тому подобное. при использовании не требует никакой платы. Позволяет напечатать текст в онлайн режиме и отправить его на печать.

Этот сервис может самостоятельно определять язык для диктовки, который настроен в браузере. Если его нужно изменить, внизу под областью текста следует выбрать в выпадающем списке меню другой параметр настройки. Для работы с требуется нажать кнопку Start Dictation и разрешить сайту использовать микрофон. После этого можно начинать диктовать.

В процессе диктовки можно использовать следующие голосовые команды : «Запятая», «Точка», «Вопросительный знак» и «Восклицательный знак», «Новый параграф» и «Новая строка».

После окончания диктовки следует нажать на кнопку Stop Listening . Для копирования текста используется «Copy», для его скачивания «Save», для удаления кнопка «Clear».

Для работы с сервисом просто заходим на сайт, выбираем нужный язык, нажимаем на кнопку Start Dictation и разрешаем использование микрофона. После этого можно начинать диктовку. При желании знаки пунктуации можно либо вставлять при помощи голоса, либо вручную, отключив сперва действующую функцию. Чтобы прекратить запись используется кнопка «Stop ». Для форматирования применяются инструменты, которые расположены на верхней панели.

Важно! Владельцам сайтов доступна возможность внедрить этот инструмент в функционал своего ресурса. Посетители смогут пользоваться голосовым поиском и таким же образом осуществлять ряд других действий, например, писать комментарии.

Код для вставки:

Https://ctrlq.org/code/19680-html5-web-speech-api?_ga=2.96371484.1866279676.1507092835-986784149.1507092834

Чтоб язык программы стал русским , в свойстве recognition.lang вместо ‘en-US’ нужно поставить ‘ru-RU’.

Сервис для преобразования речи в текст, обладающий удобным и простым функционалом. Для работы с сначала выбираем язык, нажав на значок флага. После этого кликаем на значок микрофона и начинаем диктовать.

Этот сервис от многих остальных отличается возможностью просмотра различных вариантов распознавания , а также наличием голосовых подсказок. Присутствует функция редактирования текста, которая позволяет копировать полученный результат, делать его распечатку, переводить на другие языки или пересылать на электронную почту. Чтобы начать работу с следует нажать на значок микрофона, который расположен с правой стороны. Это сервис хорош тем, что может одинаково работать в любых браузерах . Хорошо понимает многие языки, в том числе русский. Может ставить знаки пунктуации, исправлять некоторые ошибки. Обладает функцией перевода текста и его озвучиванием.

Важно! Когда нужный текст набран, обязательно следует нажать на кнопку со стрелкой, что позволит перенести готовый результат во второе поле. Именно оттуда материал либо копируют, либо отправляют на email.

После выбора всех нужных языковых настроек следует нажать на иконку микрофона и произнести фразу. Как только сервис распознает слова, в одном поле появится результат в текстовой форме, а в другом поле появится переведенный текст.

Основным отличием этого сервиса от Google переводчика является возможность голосового ввода не только в браузере Google Chrome, но и в любом другом.

Чтобы начать работу с этим сервисом требуется перейти по адресу translate.yandex.ru , выставить все необходимые языковые настройки, кликнуть на значок микрофона, и разрешить его использование.

Программы для набора текста голосом

— это программа голосового ввода текста на компьютере, которая для распознавания речи применяют Google Voice API. Она может выполнять определенные голосовые команды, а также передавать введенный текст в другие редакторы. Программа не требует за свое использование никакой оплаты.

Интерфейс программы обладает всего тремя кнопками : включить или остановить запись, а также открыть окно настроек. При работе с этой программой нужно просто нажать на кнопку записи, затем поставить курсор в окно текстового редактора и произнести фразу.

Voco

Для работы с Voco требуется сначала открыть текстовый редактор или любую другую подобную программу. В поле ввода требуется щелкнуть правой кнопкой мыши.

Затем необходимо два раза нажать на Ctrl, что позволит отобразить в нижней части экрана значок микрофона. Остается только начать диктовать текст.

Для расстановки знаков препинания или начала новой строки потребуется произнести стандартные в таких случаях команды. При распознавании аудиофайла будет происходить автоматическая расстановка знаков препинания.

В Windows 10 присутствует возможность набора текста голосом, однако эта функция доступна только для английского языка . По заверению компании-разработчика в будущем должна появиться возможность работы с другими языками.

Чтобы начать работу необходимо вызвать контекстное меню на панели задач Windows и отметить «Показывать кнопки сенсорной клавиатуры ». Эта клавиатура появится в системном трее, что позволит запустить ее в любой момент. Если переключить раскладку на английский язык, на клавиатуре отобразится значок микрофона. Нужно помнить, что аудиоввод возможен только при включенных речевых службах («Параметры» — «Конфиденциальность» — «Речь, рукописный ввод и ввод текста»). Если отображается кнопка отключения, значит службы включены. Чтобы начать диктовку, открываем любой текстовый редактор (или любое другое поле ввода) и начинаем произносить фразу в микрофон.

Расширение является продуктом компании Microsoft, созданное, чтобы облегчить ввод фраз в редакторе Word, Outlook и других. После его установки просто проговорите предложение, и оно тут же отобразится в окне редактора. Для работы потребуется качественный микрофон.

Важно! После того, как дополнение установлено, Microsoft Office потребует перезагрузки и дальнейшей активации расширения в настройках программы. Dictate станет отображаться в меню редактора в качестве отдельной вкладки.

Транскрибация в голосовом блокноте

Транскрибация – это процесс, при котором происходит обработка аудио или видео с дальнейшим преобразованием речи. Часто используется для расшифровки лекций, семинаров, курсов и так далее. Можно делать как вручную (прослушивать предложение и печатать каждое слово самостоятельно), так и с помощью специальных программ.

Первый способ

Первый способ набора текста с аудиозаписи подразумевает использование колонок и качественного микрофона. Суть заключается в том, что звук подается из колонок в микрофон, а программа, обрабатывая речь, сама записывает фразы.

Если работа будет осуществляться с видео файлом расположенном на сервисе Youtube, нужно скопировать URL адрес этого видео и вставить его в соответствующее поле. Затем необходимо нажать на кнопку «Обновить «.

Если файл располагается на компьютере, сначала выбираем тип файла. Затем нажать на кнопку «Выберите файл» и «Открыть», после чего «Включить запись».

Второй способ

При этом способе расшифровки видео потребуется наличие дополнительной программы. Она называется « ». Установка этой программы простая, достаточно лишь следовать подсказкам мастера установки. Затем виртуальный аудио кабель устанавливают в качестве устройства воспроизведения . Это позволит транслировать аудио или видео непосредственно в сам голосовой блокнот, благодаря чему нужда в использовании колонок и микрофона полностью отпадает.

Чтобы качество работы было лучше, можно воспользоваться несколькими советами:

во время записи нужно обеспечить в помещении максимальную тишину , иначе из-за посторонних шумов программа будет допускать ошибки при написании. Как вариант, можно выставить подходящие параметры в настройках микрофона (подавление шума);
длинные фразы лучше заменить короткими, а между словами требуется делать небольшие паузы ;
желательно потренироваться в произношении слов, чтобы речь была как можно более четкой и понятной. Также хорошо приобрести качественный микрофон.

Если Вы слишком медленно печатаете на клавиатуре, а учиться десятипальцевому методу набора лень, можете попробовать воспользоваться современными программами и сервисами голосового ввода текста.

Клавиатура, бесспорно, достаточно удобный инструмент управления компьютером. Однако, когда дело доходит до наборки длинного текста, мы понимаем всё её (а, если быть честными, то наше:)) несовершенство... На ней ещё нужно уметь быстро печатать!

Пару лет назад я, желая упростить себе работу по написанию статей, решил найти такую программу, которая бы позволяла преобразовать голос в текст. Я думал, как было бы хорошо, если бы я просто говорил всё что нужно в микрофон, а компьютер печатал вместо меня:)

Каково же было моё разочарование, когда я понял, что на тот момент никаких реально работающих (а тем более бесплатных) решений для этого дела не существовало. Были, правда, отечественные разработки, вроде "Горыныча" и "Диктографа". Они понимали русский язык, но, увы, качество распознавания речи имели довольно низкое, требовали долгой настройки с созданием словаря под свой голос, да ещё и стоили довольно недёшево...

Потом на свет появился Android и ситуация немного сдвинулась с мёртвой точки. В этой системе голосовой ввод появился в качестве встроенной (и довольно удобной) альтернативы ввода с виртуальной экранной клавиатуры. И вот недавно в одном из комментариев меня спросили, есть ли возможность голосового ввода для Windows? Я ответил, что пока нет, но решил поискать и оказалось, что, может и не совсем полноценная, но такая возможность существует! О результатах моих изысканий и будет сегодняшняя статья.

Проблема распознавания речи

Перед тем как начать разбор существующих на сегодняшний день решений для голосового ввода в Windows, хотелось бы немного осветить суть проблемы распознавания речи компьютером. Для более точного понимания процесса предлагаю взглянуть на следующую схему:

Как видим, преобразование речи в текст происходит в несколько этапов:

Оцифровка голоса . На этом этапе качество зависит от чёткости дикции, качества микрофона и звуковой карты.
Сравнение записи с записями в словаре . Здесь работает принцип "чем больше - тем лучше": чем больше записанных слов содержит словарь, тем выше шансы того, что Ваши слова будут распознаны правильно.
Вывод текста . Система автоматически, ориентируясь по паузам, пытается выделить из потока речи отдельные лексемы, соответствующие шаблонным лексемам из словаря, а затем выводит найденные соответствия в виде текста.

Главная проблема, как нетрудно догадаться, кроется в двух основных нюансах: качестве оцифрованного отрезка речи и объёме словаря с шаблонами. Первую проблему реально минимизировать даже при наличии дешёвого микрофона и стандартной звуковой карты. Достаточно просто говорить не спеша и внятно.

Со второй проблемой, увы, не всё так просто... Компьютер, в отличие от человека, не может корректно распознать одну и ту же фразу, сказанную, например, женщиной и мужчиной. Для этого в его базе должны существовать оба варианта озвучки разными голосами!

В этом и кроется основной подвох. Создать словарь для одного человека, в принципе, не так сложно, однако, учитывая, что каждое слово должно быть записано в нескольких вариантах, это получается очень долго и трудозатратно. Поэтому, большинство из существующих на сегодняшний день программ для распознавания речи либо стоят слишком дорого, либо не имеют собственных словарей, предоставляя пользователю возможность создать их самостоятельно.

Я не зря упомянул про Андроид чуть выше. Дело в том, что Гугл, который его разрабатывает, создал и единственный на сегодня общедоступный глобальный онлайн-словарь для распознавания речи (причём многоязычный!) под названием Google Voice API . Подобный словарь для русского языка также создаёт Яндекс, но пока он, увы, ещё непригоден для использования в реальных условиях. Поэтому практически все бесплатные решения, которые мы рассмотрим ниже, работают именно со словарями Google. Соответственно, все они имеют одинаковое качество распознавания и нюансы заключаются лишь в дополнительных возможностях...

Программы голосового ввода

Полноценных программ для голосового ввода под Windows не так уж много. Да и те, которые есть и понимают русский язык, в основном являются платными... Например, стоимость популярной пользовательской системы преобразования голоса в текст RealSpeaker стартует с отметки 2 587 руб, а профессионального комплекса Цезарь-Р аж с 35 900 руб!

Но среди всего этого дорогого софта имеется одна программка, которая не стоит и копейки, но при этом предоставляет функционал, более чем достаточний для большинства пользователей. Называется она MSpeech :

Основное окно программы имеет максимально простой интерфейс - индикатор уровня звука и всего три кнопки: включить запись, остановить запись и открыть окно настроек. Работает MSpeech также весьма просто. Вам нужно нажать кнопку записи, установить курсор в окно, в которое должен выводиться текст и начать диктовать. Для большего удобства запись и её остановку лучше производить горячими клавишами, которые можно задать в Настройках:

Кроме горячих клавиш Вам может потребоваться изменить тип передачи текста в окна нужных программ. По умолчанию установлен вывод в активное окно, однако, можно задать передачу в неактивные поля или в поля конкретной программы. Из дополнительных возможностей стоит отметить группу настроек "Команды", которая позволяет реализовать голосовое управление компьютером при помощи заданных Вами фраз.

Вообще же MSpeech - довольно удобная программа, которая позволяет набирать текст голосом в любом окне Windows. Единственный нюанс в её использовании - компьютер должен быть подключён к Интернету для доступа к словарям Гугла.

Голосовой ввод онлайн

Если Вам не хочется устанавливать на свой компьютер никаких программ, но есть желание попробовать вводить текст голосом, можете воспользоваться одним из многочисленных онлайн-сервисов, которые работают на базе всё тех же словарей Гугла.

Ну и, естественно, первым делом стоит упомянуть о "родном" сервисе Google под названием Web Speech API :

Этот сервис позволяет переводить в текст неограниченные отрезки речи на более чем 50 языках! Вам достаточно просто выбрать язык, на котором Вы говорите, нажать на иконку микрофона в правом верхнем углу формы, при необходимости подтвердить разрешение на доступ сайта к микрофону и начать говорить.

Если Вы не используете какую-либо узкоспециализированную терминологию и говорите внятно, то сможете получить весьма неплохой результат. Кроме слов сервис "понимает" ещё и знаки препинания: если Вы скажете "точка" или "запятая", необходимый знак появится в форме вывода.

По окончании записи распознанный текст будет автоматически выделен и Вы сможете скопировать его в буфер обмена или отправить по почте.

Из недостатков стоит отметить лишь возможность работы сервиса только в браузере Google Chrome старше 25-й версии, а также отсутствие возможности мультиязычного распознавания.

Кстати, на нашем сайте вверху Вы найдёте полностью русифицированную версию этой же формы распознавания речи. Пользуйтесь на здоровье;)

На базе сервиса Гугла существует достаточно аналогичных онлайн-ресурсов распознавания речи. Одним из представляющих для нас интерес можно назвать сайт Dictation.io :

В отличие от Web Speech API, Dictation.io имеет более стильное оформление в виде блокнота. Основным его преимуществом перед сервисом Гугла является то, что он позволяет остановить запись, а затем снова запустить и при этом введённый ранее текст сохранится пока Вы сами не нажмёте кнопку "Clear".

Как и сервис Google Dictation.io "умеет" ставить точки, запятые, а также восклицательный знак и знак вопроса, но не всегда начинает новое предложение с большой буквы.

Если же Вы ищете сервис с максимальным функционалом, то, наверное, одним из лучших в этом плане будет :

Главные преимущества сервиса:

наличие русскоязычного интерфейса;
возможность просмотра и выбора вариантов распознавания;
наличие голосовых подсказок;
автоотключение записи после длительной паузы;
встроенный текстовый редактор с функциями копирования текста в буфер обмена, распечатки его на принтере, отправки по почте или в Твиттер и перевода на другие языки.

Единственным недостатком сервиса (кроме уже описанных общих недостатков Web Speech API) является не совсем привычный для подобных сервисов алгоритм работы. После нажатия кнопки записи и надиктовки текста, его нужно проверить, выбрать вариант, наиболее соответствующий тому, что Вы хотели сказать, а затем перенести в текстовый редактор внизу. После чего процедуру можно повторить.

Плагины для Хрома

Кроме полноценных программ и онлайн-сервисов, существует ещё один способ распознать речь в текст. Этот способ реализовывается за счёт плагинов для браузера Google Chrome.

Главным преимуществом использования плагинов является то, что с их помощью Вы можете вводить текст голосом не только в специальной форме на сайте сервиса, но и в любом поле ввода на любом веб-ресурсе! Фактически плагины занимают промежуточную нишу между сервисами и полноценными программами для голосового ввода.

Одним из лучших расширений для перевода речи в текст является SpeechPad :

Не совру, если скажу, что SpeechPad - один из лучших русскоязычных сервисов перевода речи в текст. На официальном сайте Вы найдёте довольно мощный (хоть и немного староватый дизайном) онлайн-блокнот со множеством продвинутых функций, среди которых есть:

поддержка голосовых команд управления компьютером;
улучшенная поддержка расстановки знаков препинания;
функция отключения звуков на ПК;
интеграция с Windows (правда, на платной основе);
возможность распознавания текста с видео или аудиозаписи (функция "Транскрибация");
перевод распознанного текста на любой язык;
сохранение текста в текстовый файл, доступный для скачивания.

Что же касается плагина, то он предоставляет нам максимально упрощённый функционал сервиса. Установите курсор в нужное Вам поле ввода, вызовите контекстное меню и нажмите на пункт "SpeechPad". Теперь подтвердите доступ к микрофону и, когда поле ввода станет розовым, надиктуйте нужный текст.

После того, как Вы прекратите говорить (пауза более чем в 2 секунды), плагин сам остановит запись и выведет в поле всё, что Вы сказали. При желании Вы можете зайти в настройки плагина (правый клик на иконке плагина вверху) и изменить параметры по умолчанию:

Как ни странно, но во всём Интернет-магазине расширений Гугла мне больше не попалось ни одного стоящего плагина, который бы позволял реализовать голосовой ввод в любом текстовом поле. Единственным похожим расширением было англоязычное . Оно добавляет иконку микрофона ко всем полям ввода на веб-странице, но не всегда правильно располагает её, поэтому она может оказаться вне экрана...

Всем, кто часто использует компьютер, знакома проблема с набором длинных текстовых сообщений. Особенно часто приходится набирать тексты студентам, блогерам, журналистам и другой пишущей братии. Чтобы написать одну полноценную статью требуется пять-шесть часов напряженного труда, а для узкопрофессиональных текстов это время значительно увеличивается. Для тех, кто не любит набирать много букв на клавиатуре, придуманы специальные программы, позволяющие преобразовывать звуковые сообщения в текстовые файлы. Подобные возможности можно найти в специальных приложениях, разработанных для различных устройств. «Голосовой блокнот» — общее название для прог, превращающих звуки в буквы, и позволяющих значительно сократить время работы над текстом. Его использование значительно облегчит труд автора: большая часть работы будет сводиться к поиску и обработке материала будущего текста, а не к его набору. Давайте ознакомимся с возможностями программы для распознавания голосовых сообщений и протестируем ее на адекватность и полезность.

Знакомимся с голосовым блокнотом

Итак, чем же может нам помочь аудио блокнот? Разработчики утверждают, что он может выполнять такие функции, как:

создание голосовых заметок;
сохранение звуковых сообщений в локальном месте собственного устройства или же на облаке Гугл;
поддержка списка заменяемых слов;
расстановка знаков препинания.

Пользователь может использовать различные инструменты для расширения функций блокнота. К примеру, можно настроить ввод заглавных букв, упростить распознавание текста, делать откат ввода по специальной команде и многое другое. Общий смысл заключается в том, чтобы не только пользоваться аудио тетрадью, но и настроить его под собственный стиль речи. В этом случае конечное редактирование текста сведется к минимуму.

Перед установкой

Голосовой блокнот является бесплатным онлайн-сервисом, который предоставляется бесплатно в магазине Google. Данное приложение является расширением Chrome, поэтому работать оно будет лишь в этом браузере. Перед установкой ваш собственный Google Chrome необходимо обновить: расширение speechpad работает лишь в последних версиях данного браузера.

Также очень желательно иметь собственный аккаунт Гугл. Завести его очень просто, для этого потребуется лишь действующий почтовый ящик. Лучше всего подойдет почта gmail, которая также является разработкой Гугл. Но если вы категорически не настроены иметь почтовый ящик с расширением gmail.com, можно использовать другой. Когда все готово, можно приступать к скачиванию программы.

Установка голосового блокнота

Найденная страничка будет иметь такой вид:

После установки (пара секунд) в меню возможностей Гугл появляется вот такая иконка:

Вот это смешной смайлик с открытым ртом и является нашей программкой. После его нажатия открывается информационная страница с описанием возможностей голосового блокнота:

Внизу этой странички имеется поле для работы с блокнотом.

Чтобы начать работу с голосовым блокнотом следует проверить собственный микрофон и нажать вот эту кнопку:

В поле 1 будет транслироваться онлайн запись вашего голосового сообщения. После окончания записи текст будет перенесен в поле 2, где его можно будет отредактировать стандартными средствами Word.

Начало работы

Итак, приступаем. Жмем «Включить запись». При правильно работающем микрофоне она загорается оранжевым цветом:

После отключения записи текст появляется в нижнем поле, и будет иметь такой вид:

Запятые и точки следует проговаривать, их алгоритм программы распознает «на звук» и ставит там, где это необходимо автору. Наше сообщение получило свой знак препинания после того, как было сказано слово «точка».

Если присмотреться, можно увидеть, что фраза написана с ошибкой: так алгоритм распознал речевое сообщение. Исправить ошибку можно собственными средствами блокнота или же после переноса текста на лист Office Word.

Как можно видеть, блокнот передает речевое сообщение достаточно правильно. А чтобы сработаться с программой на «отлично», следует выполнять несколько простых рекомендаций:

Не спешите и старайтесь медленно и четко выговорить каждое слово.
Если в первом поле текст завис – не спешите диктовать дальше. аплгоритм собьется, и предложение нужно будет диктовать заново. Лучше остановиться и дать программе возможность вас догнать.
Откорректируйте работу микрофона так, чтобы он не записывал посторонние звуки – и ваше дыхание в том числе.
Для редактирования текста лучше всего использовать поле 2. делать это следует после успешной записи каждого предложения. Выключать запись не нужно, но и слишком долгие паузы делать не следует: затяжная тишина может выбить запись полностью. После редактирования предложения или абзаца включайте запись для дальнейшей диктовки текста. Второй вариант – начитать текст полностью, а затем редактировать его средствами Word. Конечно, каждый выбирает собственный стиль работы. Попробуйте оба и выберите свой.

Знаки препинания – это отдельная медаль разработчикам.

Если выговаривать их четко и размеренно, то программа не спеша расставит точки, запятые, двоеточия и восклицательные знаки по вашей команде.

Голосовой блокнот на мобильном устройстве

Кроме стандартного использования голосовой набор текста можно использовать в любом мобильном устройстве. Для этого следует активировать свою учетную запись в Гул и скачать приложение прямо в браузер Хром. После этого при запуске хром на мобильном устройстве Speechpad будет включаться по первому запросу.

Попробуйте сами это замечательный сервис и поделитесь своими впечатлениями в комментариях!