The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

01.01.2018 10:31  Facebook открыл систему распознавания речи Wav2Letter

Facebook опубликовал проект Wav2Letter, в котором открыл наработки, связанные с распознаванием речи, созданные в лаборатории искусственного интеллекта Facebook AI Research. Wav2Letter сочетает простоту и высокую эффективность преобразования речи в текст. Код оформлен в виде модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua и распространяемых под лицензией BSD. Для обработки звука применяется библиотека Libsndfile, а для цифровой обработки сигналов при помощи дискретного преобразования Фурье - FFTW. Поставляются готовые натренированные модели для английского языка.

Опубликованный код содержит реализацию архитектуры, основанной на использовании акустической модели и графа декодирования, созданных при помощи системы машинного обучения на базе свёрточной нейронной сети. Система использует посимвольный метод разбора, не требующий предварительного разделения фонем при проведении машинного обучения. В Wav2Letter применяется техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций.

Для работы декодировщика требуется только список слов и языковая модель - весовые характеристики букв выделяются из акустической модели, без необходимости подключения словарей фонетической лексики. Для ускорения проведения обучения поддерживается задействование GPU NVIDIA (CUDA) или кластерных систем (OpenMPI и TorchMPI).

При проверке на тестовом наборе LibriSpeech система показала одни из лучших результатов по уровню ошибок при разборе как чистой (уровень ошибок 4.8%), так и запутанной (уровень ошибок 14.5%) речи. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Mozilla Voice составляет 6.5%, Google Speech - 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%.

  1. Главная ссылка к новости (https://github.com/facebookres...)
  2. OpenNews: Проект Mozilla выпустил открытую систему распознавания речи
  3. OpenNews: Тестовый выпуск свободной системы распознавания речи Simon 0.4.80
  4. OpenNews: Инициатива по созданию полнофункциональной свободной системы распознавания речи
  5. OpenNews: Представлен первый релиз свободного синтезатора речи Gnuspeech
  6. OpenNews: Представлена техника воссоздания речи по вибрации предметов на видеозаписи
Лицензия: CC-BY
Тип: Программы
Ключевые слова: voice, speach, facebook
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.1, Аноним (-), 10:40, 01/01/2018 [ответить] [показать ветку] [···]    [к модератору]
  • –1 +/
    Прикольно. Как раз искал нечто подобное для умного дома. Попробую.
     
     
  • 2.3, Аноним (-), 11:03, 01/01/2018 [^] [ответить]     [к модератору]
  • +2 +/
    в виде модулей к библиотеке глубинного машинного обучения Torch Мне кажется, ч... весь текст скрыт [показать]
     
     
  • 3.31, Crazy Alex (ok), 16:39, 01/01/2018 [^] [ответить]     [к модератору]  
  • +1 +/
    Ну, между фруктой и большим сервером ного чего в промежутке есть А что, для с... весь текст скрыт [показать]
     
  • 3.52, rshadow (ok), 02:47, 02/01/2018 [^] [ответить]    [к модератору]  
  • +2 +/
    > ставить для умного дома отдельный сервер с GPU - как то не очень.

    Да норм. Можно будет играть на нем с любого тапка. В том же стиме есть трансляция. А пока не играешь, будет майнить =)

     
     
  • 4.65, Аноним (-), 19:03, 02/01/2018 [^] [ответить]    [к модератору]  
  • +2 +/
    Ага и вопрос с отоплением сразу пропадает)
     
  • 1.2, A.Stahl (ok), 10:42, 01/01/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • +3 +/
    Ну казалось бы -- всё хорошо. Лучше, чище, быстрее... Но нет, Шталь всегда найдёт о чём побурчать -- готов поспорить, что скоро какой-то маргинальный дизайнер интерфейсов (из Эппл например, их пользователи что угодно готовы жрать лишь бы нужный логотип был на месте) скажет -- дисплеи/клавиатуры на мелких устройствах -- не модно, не стильно и совсем не молодёжно.
    И всё. Случится... Нет, я не возьмусь описывать эпичность перспектив. И не потому что не осилю. Просто противно.
     
     
  • 2.46, ф (?), 20:57, 01/01/2018 [^] [ответить]    [к модератору]  
  • –3 +/
    не шталь, а стахл
     
  • 2.47, Аноним (-), 21:12, 01/01/2018 [^] [ответить]    [к модератору]  
  • –5 +/
    А Шталь-то не настоящий!!
     
  • 1.4, Ю.Т. (?), 11:49, 01/01/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    Уважаемая редакция,
    вот это: "Для ускорения проведения обучения..." (и далее по тексту)
    правильнее формулировать так:
    "...использование параллельных систем с общей памятью (...называются тулкиты NVIDIA...) и с передачей сообщений (...называются среды MPI...)"
     
     
  • 2.23, Аноним (-), 14:39, 01/01/2018 [^] [ответить]    [к модератору]  
  • –6 +/
    К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про "Top 500".
     
     
  • 3.25, Аноним84701 (ok), 16:02, 01/01/2018 [^] [ответить]     [к модератору]  
  • +3 +/
    Делать запостившему новость больше нечего, кроме как поправки в комментариях вы... весь текст скрыт [показать]
     
     
  • 4.30, Аноним (-), 16:35, 01/01/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    Правки к новости о "Top 500" были предложены в т.ч. и этом способом. Это бесполезно.
     
     
  • 5.36, Аноним (-), 18:30, 01/01/2018 [^] [ответить]     [к модератору]  
  • –1 +/
    Этот товарищ везде предлагает заменять Linux на GNU Linux, на что его резонно по... весь текст скрыт [показать]
     
  • 3.37, Аноним (-), 18:35, 01/01/2018 [^] [ответить]     [к модератору]  
  • +1 +/
    Хорошо, что редакции не наплевать на здравый смысл А мнение фанатиков, принимаю... весь текст скрыт [показать]
     
     
  • 4.40, Аноним (-), 18:58, 01/01/2018 [^] [ответить]    [к модератору]  
  • –1 +/
    Небось, пишите из-под Blink'a, на Linux'е, который установлен на процессор.
     
     
  • 5.45, Аноним (-), 20:55, 01/01/2018 [^] [ответить]    [к модератору]  
  • +/
    https://en.wikipedia.org/wiki/GNU/Linux_naming_controversy
     
  • 5.48, Аноним (-), 21:13, 01/01/2018 [^] [ответить]     [к модератору]  
  • +2 +/
    Давайте тогда называть Linux GNU BSD MIT systemd X Org KDE LibreOffice Firefox П... весь текст скрыт [показать]
     
     
  • 6.53, Аноним (-), 05:15, 02/01/2018 [^] [ответить]     [к модератору]  
  • +/
    https www gnu org gnu gnu-linux-faq html many Мы говорим только, что вы до... весь текст скрыт [показать]
     
     
  • 7.55, Ю.Т. (?), 06:45, 02/01/2018 [^] [ответить]     [к модератору]  
  • +1 +/
    Это уже социально-философская проблема Не стОит из-за неё так убиваться на техн... весь текст скрыт [показать]
     
  • 7.57, Ordu (ok), 10:07, 02/01/2018 [^] [ответить]     [к модератору]  
  • +/
    Забудь Мир вообще несправедлив Но вообще, твоя борьба за социальную справедлив... весь текст скрыт [показать]
     
  • 7.63, Аноним (-), 15:53, 02/01/2018 [^] [ответить]     [к модератору]  
  • –1 +/
    Главный вклад во что У GNU есть аналог X11 а без x11 не будет десктопа Давайт... весь текст скрыт [показать]
     
  • 1.5, Аноним (-), 11:52, 01/01/2018 [ответить] [показать ветку] [···]     [к модератору]  
  • +/
    Вот только не понятно, различие с deepspeech обусловлено ли архитектурой, или на... весь текст скрыт [показать]
     
  • 1.6, Ю.Т. (?), 12:02, 01/01/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    У ГНУ разве не было аналогичного проекта? Вообще вещь нужная, особенно если большие объёмы работы с текстом. Устр-ва ручного ввода, естественно, это не отменяет, но для ряда задач - незаменимо.
     
     
  • 2.41, Аноним (-), 19:17, 01/01/2018 [^] [ответить]    [к модератору]  
  • +/
    гнушники себе тюрьму выкладывать не будут
     
     
  • 3.43, Ю.Т. (?), 19:37, 01/01/2018 [^] [ответить]    [к модератору]  
  • +2 +/
    > гнушники себе тюрьму выкладывать не будут

    спасибо за ответ, но мысль непонятна

     
     
  • 4.50, Аноним (-), 23:24, 01/01/2018 [^] [ответить]     [к модератору]  
  • +/
    перевод речи в машинные операнды и связанное, это, по-скромному, технологии для ... весь текст скрыт [показать]
     
     
  • 5.54, Ю.Т. (?), 06:43, 02/01/2018 [^] [ответить]     [к модератору]  
  • +1 +/
    Насчёт проблем простому человеку догадывался, но тюрьма гнушникам причём А ... весь текст скрыт [показать]
     
     
  • 6.58, Аноним (-), 10:17, 02/01/2018 [^] [ответить]    [к модератору]  
  • +/
    так, по заветам, "всё равно" большинство этот мир прикончит, и что? просто "user rights" и исходный код не помогут применить эту технологию даже для самообороны
     
     
  • 7.59, Ю.Т. (?), 10:28, 02/01/2018 [^] [ответить]     [к модератору]  
  • +/
    ну я тоже отвечу вроде в тему, но издалека открытые исходники не аксиома в соц... весь текст скрыт [показать]
     
     
  • 8.60, AlexYeCu_not_logged (?), 12:21, 02/01/2018 [^] [ответить]     [к модератору]  
  • +1 +/
    И будут посланы далеко 171 В лоб 187 такое только в фантастике возможно, ка... весь текст скрыт [показать]
     
     
  • 9.61, Аноним (-), 12:52, 02/01/2018 [^] [ответить]     [к модератору]  
  • –2 +/
    Ахаха, вот жжёшь А ты вкурсе, что в России любое твоё да, твоё произведение и... весь текст скрыт [показать]
     
     
  • 10.64, AlexYeCu_not_logged (?), 16:41, 02/01/2018 [^] [ответить]     [к модератору]  
  • +3 +/
    Последний абзац моего предыдущего поста как раз про тебя ... весь текст скрыт [показать]
     
  • 8.62, Аноним (-), 13:30, 02/01/2018 [^] [ответить]    [к модератору]  
  • +/
    от этого декодер речи не станет выполняться независимо на конечном гражданском цпу и не получит санкционированный доступ к точке эффективного приложения. со времен НЭП-а ничего не запрещают:)
     
  • 1.20, Аноним (-), 13:07, 01/01/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    Паранойя mode on
    Систему то они открыли, но сама система занимется проприетаризацией информации, т.к. не все умеют читать.
    Паранойя mode off
     
  • 1.28, Аноним (-), 16:13, 01/01/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    А можно распознавание речи с помощью пакета GNURadio?
     
  • 1.29, Аноним (-), 16:25, 01/01/2018 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    А есть ли открытые системы с уже готовыми русскими моделями?
     
     
  • 2.32, Crazy Alex (ok), 16:43, 01/01/2018 [^] [ответить]    [к модератору]  
  • +/
    для сфинкса были. Вообще - смотря какое распознаванип нужно, то ли команды то ли свободный текст
     
  • 2.33, Аноним (-), 17:50, 01/01/2018 [^] [ответить]    [к модератору]  
  • +2 +/
    KALDI

    натренированная русская модель http://alphacephei.com/kaldi/kaldi-ru-0.4.tar.gz

     
     
  • 3.66, fat2002bk.ru (?), 21:46, 04/01/2018 [^] [ответить]    [к модератору]  
  • +/
    Спасибо!
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor