Новые модели для распознавания русской речи в библиотеке Vosk

17.11.2021 01:17

Разработчики библиотеки Vosk опубликовали новые модели для распознавания русской речи: серверная vosk-model-ru-0.22 и мобильная Vosk-model-small-ru-0.22. В моделях используются новые речевые данные, а также новая нейро-сетевая архитектура, что позволило повысить точность распознавания на 10-20%. Код и данные распространяются под лицензией Apache 2.0.

Важные изменения:

Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.
Новая схема извлечения звука позволила значительно улучшить точность распознавания для широкополосных записей. В то же время, точность распознавания телефонии тоже улучшилось.
Пакет для дополнения словаря позволяет настроить распознавание сложных технических записей.

Для наилучшей точности рекомендуется обновить и версию Воска до 0.3.32. Также могут быть интересны новые возможности Воска - интеграции с Unity, Nativescript, Jigasi. Модели для распознавания казахского и украинского языков. Серверной модели для работы нужен современный процессор и 8Гб памяти. Мобильная модель может использоваться в телефонах и RaspberryPi 3+.

исправить +25 +/–

Автор новости: nshmyrev

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/56171-vosk

Ключевые слова: vosk, voice

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (49)

1.1, 73 (?), 09:01, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+7 +/–
есть неплохой вариант для теста: CHIKI-BRIKI I V DAMKI

2.16, _hide_ (ok), 11:36, 17/11/2021 [^] [^^] [^^^] [ответить]	+/–
Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только охи во второй фразе "nine oh two one oh"), русские... Ну очень тяжко и выборочно, даже очень простые. Может у меня руки такие, пробовал на "примерах API".

3.25, _hide_ (ok), 12:09, 17/11/2021 [^] [^^] [^^^] [ответить]	+2 +/–
В общем, слово "минуту" в старой версии он распознавал как "да", а новой версии как "нет". Очень интересный результат.

4.27, 73 (?), 12:15, 17/11/2021 [^] [^^] [^^^] [ответить]	+1 +/–
бинарный я бы сказал)

5.30, _hide_ (ok), 12:49, 17/11/2021 [^] [^^] [^^^] [ответить]	+3 +/–
> бинарный я бы сказал) Не, проблема была в неправильно указанном рейте потока (в примере 16кГц, а у них в русском тесте 8кГц). После исправления этой информации всё в идеальном порядке.

3.41, nshmyrev (ok), 20:25, 17/11/2021 [^] [^^] [^^^] [ответить]

+/–

> Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только
> охи во второй фразе "nine oh two one oh"), русские... Ну
> очень тяжко и выборочно, даже очень простые.
> Может у меня руки такие, пробовал на "примерах API".

oh это слово для нуля по-английски

1.2, ryoken (ok), 09:09, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
>>современный процессор "Огласите весь список, пжалста..!"

2.11, QwertyReg (ok), 10:38, 17/11/2021 Скрыто ботом-модератором [к модератору]	–4 +/–

3.15, 73 (?), 11:05, 17/11/2021 Скрыто ботом-модератором [к модератору]	+3 +/–

4.19, Аноним (19), 11:38, 17/11/2021 Скрыто ботом-модератором [к модератору]	+/–

....ответы скрыты (3)

1.4, Аноним (4), 09:15, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
От AMD Sempron 2650.

1.5, Пыхтачок (?), 09:28, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
В портах FreeBSD имеется?

1.8, Аноним (8), 10:04, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
> Мобильная модель может использоваться в телефонах Пакет в F-Droid разработчики сделать поленились, конечно.

2.10, Аноним (10), 10:28, 17/11/2021 [^] [^^] [^^^] [ответить]	+3 +/–
Возьми и сделай. Или лень, конечно?

2.12, nshmyrev (ok), 10:39, 17/11/2021 [^] [^^] [^^^] [ответить]

+10 +/–

В F-droid скоро будет. У них было требование, чтобы пакеты лежали в MavenCentral, две неделе назад переехали для этого на MavenCentral. Заявка есть уже:

https://gitlab.com/fdroid/fdroiddata/-/merge_requests/9657

https://github.com/Stypox/dicio-android

3.32, gegggregg (?), 14:29, 17/11/2021 [^] [^^] [^^^] [ответить]	+/–
День добрый, а можно ли этому Dicio подсунуть русские модели vosk? В readme не нашёл ((

4.37, nshmyrev (ok), 18:06, 17/11/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Можно, но пока надо из исходников пересобирать. Скоро сделаем загрузку из приложения.

1.17, Аноним (17), 11:36, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
>Серверной модели для работы нужен современный процессор и 8Гб памяти. Мда. А какова просадка качества по сравнению с "мобильной" моделью?

2.20, nshmyrev1 (?), 11:45, 17/11/2021 [^] [^^] [^^^] [ответить]	–1 +/–
>>Серверной модели для работы нужен современный процессор и 8Гб памяти. > Мда. А какова просадка качества по сравнению с "мобильной" моделью? В таблице с моделями есть цифры ошибок. Для колонок 11.89 процентов вместо 8.65.

3.22, Аноним (17), 12:02, 17/11/2021 [^] [^^] [^^^] [ответить]	+1 +/–
А что это за проценты Проценты от чего На сайте вообще написано, что это соо... большой текст свёрнут, показать

4.42, nshmyrev (ok), 20:27, 17/11/2021 [^] [^^] [^^^] [ответить]

+/–

> А что это за "проценты"? Проценты от чего?

Ошибки распознавания обычно считаются в процентах от числа слов в тестах.

На сайте вообще написано,
> что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц
> измерения. Пока что мне эти числа вообще ничего не говорят, кроме
> того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём
> на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30.
> 30 это что? Если модель делает 30 % ошибок, то её
> вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять.

На чистых записях процент ближе к 10-15, что приемлемо. 30% обычно на очень шумных записях.

> Вообще мне срать на метрики, если
> я не могу использовать эти метрики чтобы понять, годится мне модель,
> или нет.

Тут только один вариант - попробовать самому.

2.21, _hide_ (ok), 11:48, 17/11/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Я больше скажу, "серверной" модели нужно 8ГБ для работы, а для загрузки 12ГБ. Так что ООМ киллер у меня повеселился, пока не догадался лишнее позакрывать.

1.18, zzz (??), 11:38, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
Мне нравится вот это :-) > Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.

2.29, john_erohin (?), 12:43, 17/11/2021 [^] [^^] [^^^] [ответить]

+3 +/–

> Мне нравится вот это :-)
>> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.

1) каких моделей колонок следует избегать, чтобы не работать
поставщиком голосовых данных забесплатно ?

2) как вдуть на голосовые колонки мусор (и какой именно мусор),
чтобы у них всю модель перекосило к чертям ?

3.39, nshmyrev (ok), 20:22, 17/11/2021 [^] [^^] [^^^] [ответить]

+/–

> каких моделей колонок следует избегать, чтобы не работать поставщиком голосовых данных забесплатно ?

Всех проприетарных. Можно открытые устройства использовать, вроде RPi4 с Воском и микрофонами Respeaker.

> вдуть на голосовые колонки мусор (и какой именно мусор), чтобы у них всю модель перекосило к чертям ?

Мусор фильтруется, особого смысла в нём нет. Можно скрытые данные какие-то посылать, правда, их использовать потом не просто.

1.23, john_erohin (?), 12:03, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
1) интеграция с СОРМ-1 (не путать с СОРМ-2) есть ? 2) хорошо ли распознаются спецтермины: взрывчатка, оружие, убийство, ликвидация, конспирация, детонатор, инициатор, заряд, засада, снайпер ... и далее по списку: https://rense.com/general66/scgh.htm с поправкой на РФ специфику.

2.24, Аноним (17), 12:09, 17/11/2021 [^] [^^] [^^^] [ответить]	+1 +/–
У вас неактуальные ключевые слова. Актуальные - это "доллар", "евро", "биткоин", "эфир", "мессенджер", "пенсионный возраст", "Верзилов", "Быков", "Навальный", "Новичок".

3.26, john_erohin (?), 12:13, 17/11/2021 [^] [^^] [^^^] [ответить]	+1 +/–
1) или так. 2) классика вечна. и не "тералист", а "борец за свободу" !

1.33, rshadow (ok), 16:08, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
1. Заходишь на сайт 2. Выполняешь инструкции Usage examples Python 3. Traceback ... ModuleNotFoundError: No module named 'vosk.vosk_cffi' Типичная программа на питон

2.34, Аноним (34), 16:36, 17/11/2021 [^] [^^] [^^^] [ответить]	+/–
Вряд ли, скорее всего это твои типичные руки. Но cffi намекает на то, что там обёртка на питоне вместо питона, это довольно нестандартно.

3.35, rshadow (ok), 16:48, 17/11/2021 [^] [^^] [^^^] [ответить]	+1 +/–
ничуть не сомневался что прибежит какой-нибудь фанатик и будет рассказывать как я по инструкции все неправильно сделал, и что у меня все криво и вообще я сам должен все отладить и допилить напильником

4.36, Аноним (34), 17:09, 17/11/2021 [^] [^^] [^^^] [ответить]	–1 +/–
Не знаю как насчёт фанатиков, а то что ты 1 вызов cffi назвал типичной программой на питоне уже многое сообщает окружающим о твоей квалификации.

5.38, Аноним (38), 19:52, 17/11/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Или он в курсе и квалифицирован, а инструкция гавно?

6.43, Аноним (34), 21:04, 17/11/2021 [^] [^^] [^^^] [ответить]	+/–
Вряд ли, ведь он приплёл питон и сморозил глупость, а не просто поныл на тему низкого качества опенсорса.

7.45, _hide_ (ok), 11:51, 18/11/2021 [^] [^^] [^^^] [ответить]	+/–
О чем Вы? Я никаких инструкций не читал, получил ответ "нет модуля такого-то", поставил (через pip3) и дальше проверил. В чем вопрос? Если Вам ссылку на github дают Вы удивляетесь, что Вам нужен браузер/git client? Или опять ничего не понял?

8.47, Аноним (34), 13:20, 18/11/2021 [^] [^^] [^^^] [ответить]	+/–
А если сабж просто из pypi накатить В ридми нет ничего про это, но на сайте ест... текст свёрнут, показать

9.48, _hide_ (ok), 20:47, 18/11/2021 [^] [^^] [^^^] [ответить]	+/–
Если бы у бабушки было бы pypi, то она бы была бы дедушкой Если Вы хотите того,... текст свёрнут, показать

9.49, nshmyrev (ok), 20:49, 18/11/2021 [^] [^^] [^^^] [ответить]	+/–
В ридми на гитхабе бесполезно что-то писать, гитхаб гуглом не индексируется спе... текст свёрнут, показать

10.50, Аноним (34), 20:55, 18/11/2021 [^] [^^] [^^^] [ответить]	+1 +/–
Т е, вы полагаете, что разработчик, скопировавший себе репу или читающий код на... текст свёрнут, показать

11.51, nshmyrev (ok), 21:49, 18/11/2021 [^] [^^] [^^^] [ответить]	+/–
Да, так большинство разработчиков и делают ... текст свёрнут, показать

2.40, nshmyrev (ok), 20:23, 17/11/2021 [^] [^^] [^^^] [ответить]	+/–
Для анализа проблемы хорошо было бы увидеть: 1. Версию OS (не Alpine какой-нибудь?) 2. Версию Python 3. Полный вывод из терминала со списком файлов в текущем каталоге.

1.44, Аноним (44), 09:11, 18/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а всё указывает, что верна), и если не пытались, есть шанс, что она сильно уменьшится.

2.46, nshmyrev (ok), 11:54, 18/11/2021 [^] [^^] [^^^] [ответить]

+/–

> А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а
> всё указывает, что верна), и если не пытались, есть шанс, что
> она сильно уменьшится.

Это в процессе. Рабочих рук не хватает на все идеи, как всегда.

1.52, lockywolf (ok), 04:17, 19/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Совместимость со speech-dispatcher, espeak, и всем таким, имеется? В качестве бэкенда к CMU Sphinx его можно подключить?

2.53, nshmyrev (ok), 11:56, 19/11/2021 [^] [^^] [^^^] [ответить]

+/–

> Совместимость со speech-dispatcher, espeak, и всем таким, имеется?

нет, они же для синтеза, а не для распознавания.

> В качестве бэкенда к CMU Sphinx его можно подключить?

нет, тоже особой необходимости в этом нет.

3.58, lockywolf (ok), 06:24, 21/11/2021 [^] [^^] [^^^] [ответить]

+/–

> нет, они же для синтеза, а не для распознавания.

Да, это я проспал, конечно,

>> В качестве бэкенда к CMU Sphinx его можно подключить?
> нет, тоже особой необходимости в этом нет.

А это вот странно. Многие годы Сфинкс был стандартным движком распознавания голоса для Linux.

1.54, Shura (??), 14:23, 20/11/2021 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы он хоть что-то понял. Не пойму, почему не сделать распознавание по словарю, ведь точность была бы выше.

2.55, nshmyrev (ok), 14:32, 20/11/2021 [^] [^^] [^^^] [ответить]	+/–
> Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы > он хоть что-то понял. > Не пойму, почему не сделать распознавание по словарю, ведь точность была бы > выше. Распознавание ведётся по словарю. По поводу точности распознавания, мы собираем записи для анализа, можете прислать образец, посмотрим, что там.

3.56, Shura (??), 19:45, 20/11/2021 [^] [^^] [^^^] [ответить]	+/–
Может словарь слишком велик. Там при установке стоят 4 скилла. Каждый скилл активируется своим набором команд, но распознавание распознаёт вообще любые слова, хотя по логике как стартовое слово должен распознавать только те, которые заданы в скиллах. Вот это странно. Ну может конечно у меня произношение на английском не очень. P.S. Нашёл какой-то родственный что ли проект https://github.com/alphacep/kaldi-android-demo/releases/download/2020-01/kaldi так вот там на русском всё отлично. Как бы его вот сюда прикрутить?

3.57, Shura (??), 19:56, 20/11/2021 [^] [^^] [^^^] [ответить]	+/–
А, блин, я коммент не сюда добавил. Пробовал-то я приложение dicio

игнорирование участников | лог модерирования

Добавить комментарий

Текст: