The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Проект Mozilla выпустил открытую систему распознавания речи

29.11.2017 20:11

Проект Mozilla опубликовал первый выпуск модели для системы машинного обучения, ориентированной на распознавание речи. Также опубликован использованный для тренировки модели набор голосовых данных, собранный в результате инициативы Common Voice и включающий примеры произношения около 20 тысяч людей, которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов.

Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная база позволила натренировать модель для системы машинного обучения до уровня распознавания речи, при котором число ошибок примерно соответствует распознаванию обычным человеком при прослушивании тех же записей. В текущем виде число ошибок распознавания составляет 6.5% при использовании тестового набора LibriSpeech. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%.

В основе системы распознавания речи Mozilla лежит движок DeepSpeech, созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow. DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную исследователями из компании Baidu. Предложенный Mozilla набор помимо модели распознавания речи и примеров произношения включает готовые к применению модули для Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы функции распознавания речи. Также поставляется инструментарий для распознавания из командной строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, что позволяет использовать его даже на платах Raspberry Pi.

DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо них применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, что позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности речи. Особенностью DeepSpeech является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения, надиктованных в реальных условиях разными голосами и при наличии естественных шумов.

Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться полезным и для других открытых проектов, занимающихся распознаванием речи, таких как Sphinx, Kaldi, VoxForge, ISIP, HTK и Julius. До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи. В настоящее время работа сосредоточена только на распознавании английского языка, но в первой половине 2018 года планируется приступить к сбору примеров произношения для других языков.

  1. Главная ссылка к новости (https://blog.mozilla.org/blog/...)
  2. OpenNews: Mozilla развивает свою систему распознавания речи
  3. OpenNews: В Firefox началось тестирование отправки файлов, голосового ввода и заметок
  4. OpenNews: Mozilla планирует протестировать в Firefox возможности Lockbox, Tabsplit, ThemesRfun и Foxy
  5. OpenNews: Тестовый выпуск свободной системы распознавания речи Simon 0.4.80
  6. OpenNews: Представлен Sirius, открытый персональный ассистент, напоминающий Apple Siri и Google Now
Лицензия: CC-BY
Тип: Интересно / К сведению
Ключевые слова: mozilla, voice, speach
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение (55) Ajax | 1 уровень | Линейный | Раскрыть всё | RSS
  • 1.2, Аноним (-), 20:54, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    Качественное распознавание голоса без зондов, впервые.
     
     
  • 2.19, Аноним (-), 22:29, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • –7 +/
    Мозилла? Без зондов? Хорошая шутка. В браузере килотонны телеметрии.
     
     
  • 3.23, Аноним (-), 22:41, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Как вы тут такие вообще представляете себе распознавание речи без телеметрии и накоплении глобальных баз данных?
     
     
  • 4.28, Аноним (-), 22:53, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Да-да, отличная причина толкать всем умные телевизоры сосунг со встроенными микрофонами и камерой. Замечательное оправдание. ;)
     
     
  • 5.31, Аноним (-), 23:00, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Да-да, отличная причина толкать всем умные телефоны сосунг со встроенными микрофонами
    и камерой. Замечательное оправдание. ;)

    #оченьбыстрофикс


     
  • 5.36, Вулх (?), 23:23, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Где новость, а где телевизоры, вы читали тест новости и текст комментария на который отвечаете?
     
  • 5.56, Аноним (-), 20:39, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Со временем уберут, надо только научиться мыслепреступления прямо из мозга считывать.
     
  • 3.44, meequz (ok), 11:06, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    По-твоему, телеметрия и зонды это синонимы?
     
     
  • 4.50, Аноним (-), 13:30, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Применительно к Веб - да.
     
  • 2.66, Аноним (-), 16:20, 01/12/2017 [^] [^^] [^^^] [ответить]  
  • +/
    > Качественное распознавание голоса без зондов, впервые.

    За мозиллой это еще неплохо бы проверить. Там какая-то питонятина навалена, да еще с предложением вгружать ее по сети, без аутентификации. Что там реально закачается в результате, одному ктулху известно.

     

  • 1.3, Аноним (-), 20:54, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Чего говорите, "расширения отвалились"? Извините, мы делаем очередную распознавалку речи.
     
  • 1.4, Free Speech (?), 20:55, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +22 +/
    Херня все это. KDE тоже 100 лет назад что-то выпустил, a воз и ныне там. Вот нашел - Simon называется. Она даже английский за столько лет нормально распарсить не научилась, остальных языков при нашей жизни точно не дождемся.

    https://simon.kde.org/

    Есть еще несколько опенсорсных распознавалок речи, и все они мягко говоря так же в жопе. Почему с мозиллой будет по-другому?

     
     
  • 2.5, A.Stahl (ok), 21:00, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • –3 +/
    >Почему с мозиллой будет по-другому?

    Дай я тебе помогу и процитирую немного статью. Там просто нужная для тебя информация была через очень-очень много букв и ты, видимо, устал читать.

    >Число ошибок распознавания составляет 6.5% ... уровень ошибок при распознавании человеком оценивается в 5.83%

     
     
  • 3.6, Виталий Нилл (?), 21:12, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +16 +/
    Давай теперь я тебе кое-что расскажу. Уже 10 лет читаю, не меньше, в пресс-релизной инфе вот таких опенсорсных поделий, похожие цифры: "Мы добились офигительных результатов, высокая точность распознавания и все такое". 10 лет читаю, а в дистрибутивах до сих пор тыкаюсь мышкой и набираю с клавиатуры. Вопрос: Если все в вашей реальности так о%енно, то почему обещания не превращаются в нечто материальное? В то чем можно пользоваться в повседневности? Нахрен все это, если мы будем тыкаться мышкой и клавой еще 10 лет?
     
     
  • 4.8, A.Stahl (ok), 21:27, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • –6 +/
    Не знаю как там в вашей рельности уродило сено, но в моей всякие Сири/Кортаны и прочие давно уже заняли нишу и показывают хорошие результаты. Попробуй ковокс отключить -- его писки могут заглушать твой голос мешая распознаванию.
     
     
  • 5.10, zubastik (?), 21:35, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +8 +/
    Мсье тyпой или прикидывается? С каких пор сири/кортавая стала опенсорсом? Почему ты сравниваешь закрытый коммерческий продукт титанов индустрии с наколенными бесплатными опенсорсными пoделками?
     
     
  • 6.11, A.Stahl (ok), 21:38, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • –4 +/
    Потому что новость почитай. На базе чего сделана эта титаническая "наколенная поделка".
    Впрочем, у меня бисер закончился. На сегодня хватит.
     
     
  • 7.46, Аноним (-), 11:09, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    На базе открытой платформы со странными лицензиями?

    Однако, приводя в пример закрытые системы в виде Кортавой и Сри, в таком случае стоит вспомнить IBM и из OS/2 3 Warp, в которой распознавалка IBM ViaVoice шла "из коробки". К сожалению, только английский был. Русским они тоже делали вместе с нашими специалистами, но, видимо, всё заглохло. Зато эта ViaVoice была портирована в Linux и распространялась бесплатно, но оставалась закрытой.

    Так что ваши Картаны и проч. -- хомячкой пример, что не удивительно.

    Мазила изобрела велосипед. Дело нужное.

     
     
  • 8.47, Клыкастый (ok), 12:18, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    и работала же, зараза такая правда люди всё попадались непередовые поиграются ... текст свёрнут, показать
     
     
  • 9.51, Аноним (-), 13:37, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Так и представляю гиков в консоли без клавы, но с голосовым вводом ... текст свёрнут, показать
     
     
  • 10.57, Аноним (-), 20:43, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    И с трехмертым пальцетыкательным интерфейсом И требование диплома об окончании ... текст свёрнут, показать
     
  • 8.69, Аноним (-), 17:27, 01/12/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Когда мозилла изобретает велосипед, получается ашанбайк-двухподвес Тяжелый, кри... текст свёрнут, показать
     
  • 6.33, Аноним (-), 23:10, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Пробовал Кортаной проги запускать, работало только на некоторых. А на "open telegram" после нескольких неудач начало искать в инете "woman taliban"...
     
     
  • 7.38, Аноним (-), 23:45, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Половина зубов хотя бы на месте? Что с прикусом? Я честно хз с ваших проблем с Кортаной на англ. Я с Сири плотно шпарю по-русски уже пару лет. А она только расцветает, красава ;)
    Она у меня даже склонения имён и фамилий из контактов распознаёт. Я могу ей давать задания почти как живому человеку. Ему(!) давать задания - кому как нравится.


     
     
  • 8.49, microsoft (?), 13:05, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    понимаете какое дело - суть картавой не в хорошем угадаве речи, а в хорошем угад... текст свёрнут, показать
     
     
  • 9.58, Аноним (-), 20:45, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Майкроствт гнобит Кортану Предсказуемо Впрочем, все равно надо идти на речной ... текст свёрнут, показать
     
  • 6.45, username (??), 11:09, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Мало того, сири в машине не англ имена и фамилии крайне плохо распознает. Может бы и пользовался для набора но пока внучную в с меню быстрее будет.
     
  • 4.21, rshadow (ok), 22:33, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Все распознавалки которые я щупал были похожи на выдернутые откуда то потрошка. Куски кода, без вменяемого интерфейса. Они работали, и даже неплохо, но чтобы их применить нужно быть программистом. Есть отличные наработки, а законченные продукты только у проприетарщиков.

    Тот же SaLT например: кормишь ему словарь из нескольких слов и он четко определяет какое слово произнесено, но блин просто срет логом и даже через пайп не понятно как команду запустить на конкретное слово. Как в том анекдоте: ответ абсолютно верный, и абсолютно бесполезный.

     
  • 4.63, Anonymoustus (ok), 10:10, 01/12/2017 [^] [^^] [^^^] [ответить]  
  • +/
    10 лет? Посмеялся, спасибо. Эти занимаются уже несколько десятилетий, да при финансировании и поддержке, да при невероятном улучшении доступных аппаратных ресурсов — но всё как-то без решительных побед.
     
  • 3.67, Аноним (-), 16:22, 01/12/2017 [^] [^^] [^^^] [ответить]  
  • +/
    >>Число ошибок распознавания составляет 6.5% ... уровень ошибок при распознавании человеком оценивается в 5.83%

    А еще каждый год выходят прессрелизы о том что придумана новая технология аккумуляторов, так что вот-вот гаджеты будут работать целый год без подзарядки. Но пока единственный такой гаджет - наручные часы. Не умные нифига, да и то если подсветкой не сильно пользоваться.

     
  • 2.9, Ordu (ok), 21:34, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > KDE тоже 100 лет назад что-то выпустил

    Даже если бы он выпустил что-то не 100 лет назад, а 10, то это пoдeлиe морально устарело бы и единственным подходящим ему местом был бы музей. С тех пор технологии распознавания речи продвинулись очень сильно. Причём не только в теоретическом плане, но и в технологическом -- сегодня есть, например, тот же тензорфлоу.

    Плюс в новости же есть описание, что мало всяких там технологий, Мозилла создала базу данных для обучения: эти данные сегодня -- полдела в разработке очередного применения AI.

     
     
  • 3.17, Аноним (-), 22:18, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Значит скоро нас ждут большие возможности?? Или не ждут. Я запутался.
     
  • 2.12, Я. Р. Ош (?), 22:02, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Начнём с того, что это не KDE изначально выпустила этот проект.
    Остальной твой звиздежь, если продраться через школололо обороты, такого же качества и достоверности.
     
  • 2.34, Виталий (??), 23:14, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    так раньше на телеге ездили, не все сидят и ждут как ты
    не получилось у тебя аргументированной критики дружище
     
  • 2.48, iPony (?), 12:27, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    > Херня все это. KDE тоже 100 лет назад что-то выпустил, a воз и ныне там... Почему с мозиллой будет по-другому?

    Сравнивал называется наколенных делателей десктопа, которых уже даже из Suse Enterprise выгнали с крупным игроком браузерного рынка.

     

  • 1.18, разговоры с браузером (?), 22:20, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Когда запилят в браузер? Будет ли встроенная телеметрия по сбору голосов в АНБ?
     
     
  • 2.20, АНБ (?), 22:30, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +4 +/
    ты чо, совсем дурак, что-ли? Мы для чего эту технологию-то спонсируем, чтоб тонны твоего унц-унц-унц хранить на своих дисках? Телеметрия будет собирать не голос, а распознанный текст, в котором мы сможем пользоваться удобным поиском.

     
     
  • 3.30, Аноним (-), 22:54, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Я тебе недоверяю.
     
     
  • 4.40, АНБ (?), 00:12, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А для нас это и не важно.
     
  • 3.71, ЦРУ (?), 12:26, 02/12/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Коллеги, не хотелось мне о работе но ладно. Не надо заниматься распознаванием на устройстве, потом не проверить ж. Проще к нам высылать, а мы там это как можем. Люди разные бывают, поэтому иногда тут только ручной анализ работает.
     

  • 1.22, Аноним (-), 22:40, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    Я думаю, что до той же Сири там всегда будет как до Китая раком, хотя бы потому, что пользователей Сири не спрашивают, что они хотят передавать голосом на серверы, а что нет. Последние пару лет я везде где возможно использую голосовое взаимодействие с устройствами и меня эта тётка уже реально пугает. 4 года назад ещё так не пугала. С ней уже можно просто разговаривать, чего никак не скажешь о гугль-ассистенте, хотя, казалось бы, должно быть наоборот. Видимо, у двух компаний разный кпд и выхлоп ;)
     
     
  • 2.26, Аноним (-), 22:51, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Я думаю он вообще не выйдет. Пошумят и заглохнет, как всегда.
     
     
  • 3.41, Аноним (-), 02:58, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    А знаете ведь так и есть в крупных компаниях вообще очень сложно сделать любое начинание. В основном сплошной саботаж. Это я сейчас про Microsfot в частности говорю. Хотя сверху все вполне красиво выглядит в самом низу полнейший кошмар ... К сожалению, жто и погубит майкрософт скорее всего да впрочем любуюкомпанию.

    У меня деж теория есть что развиваться может только небольшой стратап остальные только стагнировать и умирать...

     
  • 2.37, Виталий (??), 23:43, 29/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Похоже вы путаете распознавание голоса с искусственным интеллектом и биг датой используемые в сири для общения с вами.
     
  • 2.64, Anonymoustus (ok), 10:16, 01/12/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Сири только притворяется тёткой. На самом деле в аппаратной сидят бородатые индусы в наушниках с микрофоном.
     

  • 1.42, Аноним (-), 10:12, 30/11/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Вы видели картинки этой системы? Как можно что-то в нее сказать, если во рту микрофон в виде лакомки???
     
  • 1.43, Аноним (-), 11:00, 30/11/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Для русского языка имхо лучше KALDI с натренировонной моделью http://alphacephei.com/kaldi/kaldi-ru-0.3.tar.gz в опенсорсе ничего нет. Есть ещё sphinx, тоже хорош и тренируем. Но Kaldi показала лучше.
    Был loguendo ASR, но он продавался только телекомам за какие то неопредлённые деньги, а сейчас вообще в недрах nuance канул. Да и без исходников он был.

    Так что для русского языка KALDI очень хорош. Каналы по теме
    https://t.me/cmusphinx
    https://t.me/cmusphinx_ru

     
  • 1.52, Аноним (-), 14:46, 30/11/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    а саму модель-то я не нашёл.
     
     
  • 2.54, Alex (??), 18:39, 30/11/2017 [^] [^^] [^^^] [ответить]  
  • +/
    https://github.com/mozilla/DeepSpeech/releases/download/v0.1.0/deepspeech-0.1.
     

  • 1.55, rvs2016 (ok), 20:33, 30/11/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    А кто-нибудь делает ли системы распознавания речи, которые умеют эту речь распознавать без интернета? А то распознают речь не на устройствах пользователя, а на своих серверах, к которым доступ может в любое время отвалиться и ещё чем-то там пытаются гордиться. :-)
     
     
  • 2.61, Аноним (-), 03:57, 01/12/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    вот как раз Мозилла и сделала такую. Есть ещё cmu sphinx и julius, но это по сравнению с нейросетевыми вообще рандом.
     
     
  • 3.65, Аноним (-), 12:38, 01/12/2017 [^] [^^] [^^^] [ответить]  
  • +/
    KALDI на нейросетках
     

  • 1.62, Anonymoustus (ok), 10:06, 01/12/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Браузер-то уже достиг совершенства — почему бы не попробовать силы в чём-то ещё.
     
     
  • 2.68, Аноним (-), 16:23, 01/12/2017 [^] [^^] [^^^] [ответить]  
  • +/
    > Браузер-то уже достиг совершенства — почему бы не попробовать силы в чём-то ещё.

    На вид это еще больше макет программы чем мозильский браузер.

     

  • 1.70, DmA (??), 23:11, 01/12/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Чтобы сделать нормальную распознавалку речи, нужно начинать не с какого-то одного языка, а с  распознавания международного фонетического алфавита(фактически всех звуков, которые использует горло для передачи звуков речи). Далее создавать словари всех языков мира, в которых слова на каком-то языке записаны символами этого международного алфавита и искать по базе слов.Если такой набор звуков есть а нескольких языках, то тут уже спрашивать у человека, какой он предпочитает язык выдачи.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    Слёрм
    Inferno Solutions
    Hosting by Ihor
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2019 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру