The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]



"Facebook открыл систему распознавания речи Wav2Letter"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от opennews (??), 01-Янв-18, 10:40 
Facebook опубликовал проект Wav2Letter (https://github.com/facebookresearch/wav2letter), в котором открыл наработки, связанные с распознаванием речи, созданные в лаборатории искусственного интеллекта Facebook AI Research. Wav2Letter сочетает простоту и высокую эффективность преобразования речи в текст. Код оформлен в виде модулей к библиотеке глубинного машинного обучения Torch (http://torch.ch/), написанных на языке Lua и распространяемых (https://github.com/facebookresearch/deepmask) под лицензией BSD. Для обработки звука применяется библиотека  Libsndfile (http://www.mega-nerd.com/libsndfile), а для цифровой обработки сигналов при помощи дискретного преобразования Фурье - FFTW (http://www.fftw.org/). Дополнительно поставляются (https://github.com/facebookresearch/wav2letter#pre-trained-m...) натренированные модели для английского языка.


Опубликованный код содержит реализацию архитектуры (https://arxiv.org/abs/1712.09444), основанной (https://arxiv.org/abs/1609.03193) на использовании акустической модели и графа декодирования, созданных при помощи системы машинного обучения на базе свёрточной нейронной сети. Система использует посимвольный метод разбора, не требующий предварительного разделения фонем при проведении машинного обучения. В Wav2Letter применяется техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций.


Для работы декодировщика требуется только список слов и языковая модель - весовые характеристики букв выделяются из акустической модели, без необходимости подключения словарей фонетической лексики. Поддерживается задействование GPU NVIDIA (CUDA) или кластерных систем (OpenMPI и TorchMPI) для ускорения проведения обучения. При проверке на тестовом наборе LibriSpeech (http://www.openslr.org/12) система показала одни из лучших результатов по уровню ошибок  при разборе как чистой (уровень ошибок 4.8%), так и запутанной (уровень ошибок 14.5%) речи.


URL: https://github.com/facebookresearch/wav2letter
Новость: https://www.opennet.ru/opennews/art.shtml?num=47842

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Facebook открыл систему распознавания речи Wav2Letter"  –1 +/
Сообщение от Аноним (-), 01-Янв-18, 10:40 
Прикольно. Как раз искал нечто подобное для умного дома. Попробую.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

3. "Facebook открыл систему распознавания речи Wav2Letter"  +2 +/
Сообщение от Аноним (-), 01-Янв-18, 11:03 
"в виде модулей к библиотеке глубинного машинного обучения Torch"
Мне кажется, что Torch будет тяжеловат для запуска на какой-то-фрукт-Pi, а ставить для умного дома отдельный сервер с GPU - как то не очень.
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

31. "Facebook открыл систему распознавания речи Wav2Letter"  +1 +/
Сообщение от Crazy Alex (ok), 01-Янв-18, 16:39 
Ну, между фруктой и большим сервером ного чего в промежутке есть... А что, для самого распознавания там тоже куча ресурсов нужна? Или только для обучения нейросетки? Если второе, то на это десктоп может сгодиться или арендованное железо
Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

52. "Facebook открыл систему распознавания речи Wav2Letter"  +2 +/
Сообщение от rshadow (ok), 02-Янв-18, 02:47 
> ставить для умного дома отдельный сервер с GPU - как то не очень.

Да норм. Можно будет играть на нем с любого тапка. В том же стиме есть трансляция. А пока не играешь, будет майнить =)

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

65. "Facebook открыл систему распознавания речи Wav2Letter"  +3 +/
Сообщение от Аноним (-), 02-Янв-18, 19:03 
Ага и вопрос с отоплением сразу пропадает)
Ответить | Правка | ^ к родителю #52 | Наверх | Cообщить модератору

2. "Facebook открыл систему распознавания речи Wav2Letter"  +3 +/
Сообщение от A.Stahl (ok), 01-Янв-18, 10:42 
Ну казалось бы -- всё хорошо. Лучше, чище, быстрее... Но нет, Шталь всегда найдёт о чём побурчать -- готов поспорить, что скоро какой-то маргинальный дизайнер интерфейсов (из Эппл например, их пользователи что угодно готовы жрать лишь бы нужный логотип был на месте) скажет -- дисплеи/клавиатуры на мелких устройствах -- не модно, не стильно и совсем не молодёжно.
И всё. Случится... Нет, я не возьмусь описывать эпичность перспектив. И не потому что не осилю. Просто противно.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

46. "Facebook открыл систему распознавания речи Wav2Letter"  –3 +/
Сообщение от ф (?), 01-Янв-18, 20:57 
не шталь, а стахл
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

47. "Facebook открыл систему распознавания речи Wav2Letter"  –5 +/
Сообщение от Аноним (-), 01-Янв-18, 21:12 
А Шталь-то не настоящий!!
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

4. "Facebook открыл систему распознавания речи Wav2Letter"  –1 +/
Сообщение от Ю.Т. (?), 01-Янв-18, 11:49 
Уважаемая редакция,
вот это: "Для ускорения проведения обучения..." (и далее по тексту)
правильнее формулировать так:
"...использование параллельных систем с общей памятью (...называются тулкиты NVIDIA...) и с передачей сообщений (...называются среды MPI...)"
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

23. "Facebook открыл систему распознавания речи Wav2Letter"  –6 +/
Сообщение от Аноним (-), 01-Янв-18, 14:39 
К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про "Top 500".
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

25. "Facebook открыл систему распознавания речи Wav2Letter"  +3 +/
Сообщение от Аноним84701 (ok), 01-Янв-18, 16:02 
> К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на
> здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про "Top 500".

Делать запостившему новость больше нечего, кроме как поправки в комментариях  высматривать.
Есть что-то добавить или поправить – "правка" под новостью к вашим услугам. Можно даже из под анонима.

Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

30. "Facebook открыл систему распознавания речи Wav2Letter"  –1 +/
Сообщение от Аноним (-), 01-Янв-18, 16:35 
Правки к новости о "Top 500" были предложены в т.ч. и этом способом. Это бесполезно.
Ответить | Правка | ^ к родителю #25 | Наверх | Cообщить модератору

36. "Facebook открыл систему распознавания речи Wav2Letter"  –1 +/
Сообщение от Аноним (-), 01-Янв-18, 18:30 
Этот товарищ везде предлагает заменять Linux на GNU/Linux, на что его резонно посылают :-) В ветке про Top500 ему даже разжевали почему. Насколько я понимаю, политика opennet в том, что если сам проект называет себя GNU/Linux то пишут GNU/Linux (см. новости про ROSA), а если нет - то просто Linux.
Ответить | Правка | ^ к родителю #30 | Наверх | Cообщить модератору

37. "Facebook открыл систему распознавания речи Wav2Letter"  +1 +/
Сообщение от Аноним (-), 01-Янв-18, 18:35 
> К сожалению, уважаемой редакции наплевать на мнение людей. А иногда и на
> здравый смысл - см. трагедию с именованием "GNU/Linux" в новости про
> "Top 500".

Хорошо, что редакции не наплевать на здравый смысл. А мнение фанатиков, принимающих только своё однобокое суждение, далеко не истина в последней инстанции.

Ответить | Правка | ^ к родителю #23 | Наверх | Cообщить модератору

40. "Facebook открыл систему распознавания речи Wav2Letter"  –1 +/
Сообщение от Аноним (-), 01-Янв-18, 18:58 
Небось, пишите из-под Blink'a, на Linux'е, который установлен на процессор.
Ответить | Правка | ^ к родителю #37 | Наверх | Cообщить модератору

45. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Аноним (-), 01-Янв-18, 20:55 
https://en.wikipedia.org/wiki/GNU/Linux_naming_controversy
Ответить | Правка | ^ к родителю #40 | Наверх | Cообщить модератору

48. "Facebook открыл систему распознавания речи Wav2Letter"  +2 +/
Сообщение от Аноним (-), 01-Янв-18, 21:13 
Давайте тогда называть Linux/GNU/BSD/MIT/systemd/X.Org/KDE/LibreOffice/Firefox
Почему пакеты GNU важнее других частей дистрибутива? Единственная не заменяемая вещь в дистрибутиве ядро, если его заменить будет уже не Linux. Давайте доведёт до абсурда: Apache/NCSA сильно повлиял на Web, давайте теперь называть  не Web, а Web/Apache.
Ответить | Правка | ^ к родителю #40 | Наверх | Cообщить модератору

53. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Аноним (-), 02-Янв-18, 05:15 
https://www.gnu.org/gnu/gnu-linux-faq.html#many
> К настоящему времени систему дополнили многие другие проекты; среди них — TeX, X11, Apache, Perl и много других программ. Разве ваши аргументы не подразумевают, что мы должны отдать должное и им? (Но это привело бы к такому длинному названию, что это был бы абсурд.)

    Мы говорим только, что вы должны отдать должное ведущему разработчику системы. Ведущий разработчик в данном случае — это проект GNU, а система, в основном, GNU.

    Если вы чувствуете еще большее желание отдать должное тем, кто этого заслуживает, вы, возможно, сочтете, что некоторые второстепенные участники также заслуживают признания в виде своей части в названии системы. Если это так, то мы далеки от того, чтобы спорить с этим. Если вы считаете, что X11 заслуживает своей части в названии системы, и вы хотите называть систему “GNU/X11/Linux” — пожалуйста. Если же вы считаете, что Perl просто взывает об упоминании, и хотите писать “GNU/Linux/Perl” — так и поступайте.

    Поскольку такое длинное название, как “GNU/X11/Apache/Linux/TeX/Perl/Python/FreeCiv”, становится абсурдным, на каком-то этапе вам придется провести черту и опустить названия многих других второстепенных составляющих. Бесспорно верного места, где провести эту черту, нет, поэтому где бы вы ее ни провели, мы не станем с этим спорить.

    Разные места для проведения черты приводят к разным вариантам названия системы. Но одно название не может возникнуть из соображений справедливости и выражения благодарности, каким бы ни было положение черты. Это название — “Linux”. Не может быть справедливым, когда выражают благодарность только за один из второстепенных вкладов (Linux), в то время, как главный вклад (GNU) игнорируется.

Ответить | Правка | ^ к родителю #48 | Наверх | Cообщить модератору

55. "Facebook открыл систему распознавания речи Wav2Letter"  +1 +/
Сообщение от Ю.Т. (?), 02-Янв-18, 06:45 
> название — “Linux”. Не может быть справедливым, когда выражают благодарность
> только за один из второстепенных вкладов (Linux), в то время, как
> главный вклад (GNU) игнорируется.

Это уже социально-философская проблема. Не стОит из-за неё так убиваться на техническом форуме, который лишь выражает общие тенденции в проблемах такого рода.

Ответить | Правка | ^ к родителю #53 | Наверх | Cообщить модератору

57. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Orduemail (ok), 02-Янв-18, 10:07 
Забудь. Мир вообще несправедлив.

Но вообще, твоя борьба за социальную справедливость напомнила мне воинов социальной справедливости[1].
Мне вообще кажется, что война за социальную справедливость со временем повреждает психику воина. Я в точности не понимаю процессов, которые к этому приводят, но у меня тут после прочтения статьи[2], возникло ощущение, что это связано с "культурой жертвы" (victimhood culture) и внешним локусом контроля.
Так что ты осторожнее, береги себя.

[1] https://en.wikipedia.org/wiki/Social_justice_warrior
[2] http://quillette.com/2017/12/27/collision-reality-depth-psyc.../

Ответить | Правка | ^ к родителю #53 | Наверх | Cообщить модератору

63. "Facebook открыл систему распознавания речи Wav2Letter"  –1 +/
Сообщение от Аноним (-), 02-Янв-18, 15:53 
Главный вклад во что? У GNU есть аналог X11? а без x11 не будет десктопа.
Давайте MIT обязательно туда добавим.

Нет, найдется чучело которое цитирует упертых фанатиков которые ценят только свое Я. не считаясь с другими
(см. историю с libdwg, sed и тп..)

Ответить | Правка | ^ к родителю #53 | Наверх | Cообщить модератору

5. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Аноним (-), 01-Янв-18, 11:52 
Вот только не понятно, различие с deepspeech обусловлено ли архитектурой, или на порядки большем дейтасетом Фейсбука?

По-моему, сравнивать модели надо на одном и том же дейтасете. И желательно на том же количестве синапсов

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

6. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Ю.Т. (?), 01-Янв-18, 12:02 
У ГНУ разве не было аналогичного проекта? Вообще вещь нужная, особенно если большие объёмы работы с текстом. Устр-ва ручного ввода, естественно, это не отменяет, но для ряда задач - незаменимо.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

41. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Аноним (-), 01-Янв-18, 19:17 
гнушники себе тюрьму выкладывать не будут
Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

43. "Facebook открыл систему распознавания речи Wav2Letter"  +2 +/
Сообщение от Ю.Т. (?), 01-Янв-18, 19:37 
> гнушники себе тюрьму выкладывать не будут

спасибо за ответ, но мысль непонятна

Ответить | Правка | ^ к родителю #41 | Наверх | Cообщить модератору

50. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Аноним (-), 01-Янв-18, 23:24 
перевод речи в машинные операнды и связанное, это, по-скромному, технологии для "ряда задач" контроля, и в будущем доставит простому человеку множество проблем. управлять же голосом тем же умным домом можно и без глубинного анализа, артикуляции, фурье и прочей чертовщины.
Ответить | Правка | ^ к родителю #43 | Наверх | Cообщить модератору

54. "Facebook открыл систему распознавания речи Wav2Letter"  +1 +/
Сообщение от Ю.Т. (?), 02-Янв-18, 06:43 
Насчёт "проблем простому человеку" догадывался, но "тюрьма гнушникам" причём?
А "простому человеку" любая технология доставляет множество проблем.

> управлять же голосом тем же умным домом можно и без глубинного анализа,
> артикуляции, фурье и прочей чертовщины.

Ладно, и вовсе все эти "умные дома" это блажь, настоящую пользу от которой получат (получают!) отнюдь не те, кого называет реклама. Ну, поняли мы это, и что? Всё равно эту хрень будут развивать.

Ответить | Правка | ^ к родителю #50 | Наверх | Cообщить модератору

58. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Аноним (-), 02-Янв-18, 10:17 
так, по заветам, "всё равно" большинство этот мир прикончит, и что? просто "user rights" и исходный код не помогут применить эту технологию даже для самообороны
Ответить | Правка | ^ к родителю #54 | Наверх | Cообщить модератору

59. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Ю.Т. (?), 02-Янв-18, 10:28 
> так, по заветам, "всё равно" большинство этот мир прикончит, и что? просто
> "user rights" и исходный код не помогут применить эту технологию даже
> для самообороны

ну я тоже отвечу вроде в тему, но издалека: открытые исходники не аксиома; в социуме аксиом нет, а лишь более или менее устоявшийся договоры; вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?

Ответить | Правка | ^ к родителю #58 | Наверх | Cообщить модератору

60. "Facebook открыл систему распознавания речи Wav2Letter"  +1 +/
Сообщение от AlexYeCu_not_logged (?), 02-Янв-18, 12:21 
>вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?

И будут посланы далеко. «В лоб» такое только в фантастике возможно, как, к примеру, у того же Дивова — у него в одном из романов как раз фигурировал международный запрет нанороботов и опенсорса.

А возможность создавать препятствия есть уже сейчас, без малейшей необходимости в странных и скандальных законах.

И это всё при том, что у большинства людей напрочь отсутствует видение причинно-следственных связей, способности к абстрактному и критическому мышлению, прогнозированию развития событий и планированию своих действий. На них не нужны ограничивающие законы, достаточно языкастого маркетолога.

Ответить | Правка | ^ к родителю #59 | Наверх | Cообщить модератору

61. "Facebook открыл систему распознавания речи Wav2Letter"  –2 +/
Сообщение от Аноним (-), 02-Янв-18, 12:52 
>вот "завтра" лоббисты проведут закон о незаконности открытого исходника - и что?
> И будут посланы далеко. «В лоб» такое только в фантастике возможно, как, к примеру, у того же Дивова — у него в одном из романов как раз фигурировал международный запрет нанороботов и опенсорса.  

Ахаха, вот жжёшь. А ты вкурсе, что в России любое твоё (да, твоё) произведение искусства (музыка, стихи, да что угодно, возможно, и программы) принадлежит тебе далеко не полностью? Есть такая контора - РАО, которая благодаря идиoтским законам осуществляет т.н. "коллективное управление правами". Отвертеться от этого можно, но очень трудно. За пруфами милости прошу в поиск по интернету.

Ответить | Правка | ^ к родителю #60 | Наверх | Cообщить модератору

64. "Facebook открыл систему распознавания речи Wav2Letter"  +3 +/
Сообщение от AlexYeCu_not_logged (?), 02-Янв-18, 16:41 
>А ты вкурсе, что в России любое твоё (да, твоё) произведение искусства (музыка, стихи, да что угодно, возможно, и программы) принадлежит тебе далеко не полностью? Есть такая контора - РАО

Последний абзац моего предыдущего поста как раз про тебя.

Ответить | Правка | ^ к родителю #61 | Наверх | Cообщить модератору

62. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Аноним (-), 02-Янв-18, 13:30 
от этого декодер речи не станет выполняться независимо на конечном гражданском цпу и не получит санкционированный доступ к точке эффективного приложения. со времен НЭП-а ничего не запрещают:)
Ответить | Правка | ^ к родителю #59 | Наверх | Cообщить модератору

20. "Facebook открыл систему распознавания речи Wav2Letter"  –1 +/
Сообщение от Аноним (-), 01-Янв-18, 13:07 
Паранойя mode on
Систему то они открыли, но сама система занимется проприетаризацией информации, т.к. не все умеют читать.
Паранойя mode off
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

28. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Аноним (-), 01-Янв-18, 16:13 
А можно распознавание речи с помощью пакета GNURadio?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

29. "Facebook открыл систему распознавания речи Wav2Letter"  +1 +/
Сообщение от Аноним (-), 01-Янв-18, 16:25 
А есть ли открытые системы с уже готовыми русскими моделями?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

32. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Crazy Alex (ok), 01-Янв-18, 16:43 
для сфинкса были. Вообще - смотря какое распознаванип нужно, то ли команды то ли свободный текст
Ответить | Правка | ^ к родителю #29 | Наверх | Cообщить модератору

33. "Facebook открыл систему распознавания речи Wav2Letter"  +2 +/
Сообщение от Аноним (-), 01-Янв-18, 17:50 
KALDI

натренированная русская модель http://alphacephei.com/kaldi/kaldi-ru-0.4.tar.gz

Ответить | Правка | ^ к родителю #29 | Наверх | Cообщить модератору

66. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от fat2002bk.ru (?), 04-Янв-18, 21:46 
Спасибо!
Ответить | Правка | ^ к родителю #33 | Наверх | Cообщить модератору

68. "Facebook открыл систему распознавания речи Wav2Letter"  +/
Сообщение от Овощь (?), 26-Фев-19, 18:57 
А оно вообще совместимо с wav2letter? Заранее сорян за тупой вопрос
Ответить | Правка | ^ к родителю #33 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Слёрм
Inferno Solutions
Hosting by Ihor
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2019 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру