The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Новые модели для распознавания русской речи в библиотеке Vosk

17.11.2021 01:17

Разработчики библиотеки Vosk опубликовали новые модели для распознавания русской речи: серверная vosk-model-ru-0.22 и мобильная Vosk-model-small-ru-0.22. В моделях используются новые речевые данные, а также новая нейро-сетевая архитектура, что позволило повысить точность распознавания на 10-20%. Код и данные распространяются под лицензией Apache 2.0.

Важные изменения:

  • Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.
  • Новая схема извлечения звука позволила значительно улучшить точность распознавания для широкополосных записей. В то же время, точность распознавания телефонии тоже улучшилось.
  • Пакет для дополнения словаря позволяет настроить распознавание сложных технических записей.

Для наилучшей точности рекомендуется обновить и версию Воска до 0.3.32. Также могут быть интересны новые возможности Воска - интеграции с Unity, Nativescript, Jigasi. Модели для распознавания казахского и украинского языков. Серверной модели для работы нужен современный процессор и 8Гб памяти. Мобильная модель может использоваться в телефонах и RaspberryPi 3+.

  1. Главная ссылка к новости (https://alphacephei.com/vosk/m...)
  2. OpenNews: Обновление голосовых данных Mozilla Common Voice 7.0
  3. OpenNews: Тестовый выпуск свободной системы распознавания речи Simon 0.4.80
  4. OpenNews: Библиотека для распознавания русской речи на Android и Linux без сети
  5. OpenNews: Компания Mozilla представила движок распознавания речи DeepSpeech 0.9
  6. OpenNews: Facebook опубликовал открытую систему распознавания речи Wav2letter++
Автор новости: nshmyrev
Тип: Программы
Короткая ссылка: https://opennet.ru/56171-vosk
Ключевые слова: vosk, voice
Поддержать дальнейшую публикацию новостей на OpenNET.


Обсуждение (49) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, 73 (?), 09:01, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    есть неплохой вариант для теста: CHIKI-BRIKI I V DAMKI
     
     
  • 2.16, _hide_ (ok), 11:36, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только охи во второй фразе "nine oh two one oh"), русские... Ну очень тяжко и выборочно, даже очень простые.

    Может у меня руки такие, пробовал на "примерах API".

     
     
  • 3.25, _hide_ (ok), 12:09, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    В общем, слово "минуту" в старой версии он распознавал как "да", а новой версии как "нет". Очень интересный результат.
     
     
  • 4.27, 73 (?), 12:15, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    бинарный я бы сказал)
     
     
  • 5.30, _hide_ (ok), 12:49, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > бинарный я бы сказал)

    Не, проблема была в неправильно указанном рейте потока (в примере 16кГц, а у них в русском тесте 8кГц). После исправления этой информации всё в идеальном порядке.

     
  • 3.41, nshmyrev (ok), 20:25, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только
    > охи во второй фразе "nine oh two one oh"), русские... Ну
    > очень тяжко и выборочно, даже очень простые.
    > Может у меня руки такие, пробовал на "примерах API".

    oh это слово для нуля по-английски

     

  • 1.2, ryoken (ok), 09:09, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    >>современный процессор

    "Огласите весь список, пжалста..!"

     
     
  • 2.11, QwertyReg (ok), 10:38, 17/11/2021 Скрыто модератором
  • –4 +/
     
     
  • 3.15, 73 (?), 11:05, 17/11/2021 Скрыто модератором
  • +3 +/
     
     
  • 4.19, Аноним (19), 11:38, 17/11/2021 Скрыто модератором
  • +/
     

     ....ответы скрыты модератором (3)

  • 1.4, Аноним (4), 09:15, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    От AMD Sempron 2650.
     
  • 1.5, Пыхтачок (?), 09:28, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    В портах FreeBSD имеется?
     
  • 1.8, Аноним (8), 10:04, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    > Мобильная модель может использоваться в телефонах

    Пакет в F-Droid разработчики сделать поленились, конечно.

     
     
  • 2.10, Аноним (10), 10:28, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Возьми и сделай.
    Или лень, конечно?
     
  • 2.12, nshmyrev (ok), 10:39, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +10 +/
    В F-droid скоро будет. У них было требование, чтобы пакеты лежали в MavenCentral, две неделе назад переехали для этого на MavenCentral. Заявка есть уже:

    https://gitlab.com/fdroid/fdroiddata/-/merge_requests/9657

    https://github.com/Stypox/dicio-android

     
     
  • 3.32, gegggregg (?), 14:29, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    День добрый, а можно ли этому Dicio подсунуть русские модели vosk? В readme не нашёл ((
     
     
  • 4.37, nshmyrev (ok), 18:06, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Можно, но пока надо из исходников пересобирать. Скоро сделаем загрузку из приложения.
     

  • 1.17, Аноним (17), 11:36, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >Серверной модели для работы нужен современный процессор и 8Гб памяти.

    Мда. А какова просадка качества по сравнению с "мобильной" моделью?

     
     
  • 2.20, nshmyrev1 (?), 11:45, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >>Серверной модели для работы нужен современный процессор и 8Гб памяти.
    > Мда. А какова просадка качества по сравнению с "мобильной" моделью?

    В таблице с моделями есть цифры ошибок. Для колонок 11.89 процентов вместо 8.65.

     
     
  • 3.22, Аноним (17), 12:02, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А что это за проценты Проценты от чего На сайте вообще написано, что это соо... большой текст свёрнут, показать
     
     
  • 4.42, nshmyrev (ok), 20:27, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > А что это за "проценты"? Проценты от чего?

    Ошибки распознавания обычно считаются в процентах от числа слов в тестах.

    На сайте вообще написано,
    > что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц
    > измерения. Пока что мне эти числа вообще ничего не говорят, кроме
    > того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём
    > на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30.
    > 30 это что? Если модель делает 30 % ошибок, то её
    > вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять.

    На чистых записях процент ближе к 10-15, что приемлемо. 30% обычно на очень шумных записях.

    > Вообще мне срать на метрики, если
    > я не могу использовать эти метрики чтобы понять, годится мне модель,
    > или нет.

    Тут только один вариант - попробовать самому.


     
  • 2.21, _hide_ (ok), 11:48, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Я больше скажу, "серверной" модели нужно 8ГБ для работы, а для загрузки 12ГБ. Так что ООМ киллер у меня повеселился, пока не догадался лишнее позакрывать.
     

  • 1.18, zzz (??), 11:38, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Мне нравится вот это :-)
    > Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.
     
     
  • 2.29, john_erohin (?), 12:43, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > Мне нравится вот это :-)
    >> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.

    1) каких моделей колонок следует избегать, чтобы не работать
    поставщиком голосовых данных забесплатно ?

    2) как вдуть на голосовые колонки мусор (и какой именно мусор),
    чтобы у них всю модель перекосило к чертям ?

     
     
  • 3.39, nshmyrev (ok), 20:22, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > каких моделей колонок следует избегать, чтобы не работать поставщиком голосовых данных забесплатно ?

    Всех проприетарных. Можно открытые устройства использовать, вроде RPi4 с Воском и микрофонами Respeaker.

    > вдуть на голосовые колонки мусор (и какой именно мусор), чтобы у них всю модель перекосило к чертям ?

    Мусор фильтруется, особого смысла в нём нет. Можно скрытые данные какие-то посылать, правда, их использовать потом не просто.

     

  • 1.23, john_erohin (?), 12:03, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    1) интеграция с СОРМ-1 (не путать с СОРМ-2) есть ?

    2) хорошо ли распознаются спецтермины: взрывчатка, оружие, убийство, ликвидация, конспирация, детонатор, инициатор, заряд, засада, снайпер ... и далее по списку: https://rense.com/general66/scgh.htm с поправкой на РФ специфику.

     
     
  • 2.24, Аноним (17), 12:09, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    У вас неактуальные ключевые слова. Актуальные - это "доллар", "евро", "биткоин", "эфир", "мессенджер", "пенсионный возраст", "Верзилов", "Быков", "Навальный", "Новичок".
     
     
  • 3.26, john_erohin (?), 12:13, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    1) или так.
    2) классика вечна. и не "тералист", а "борец за свободу" !
     

  • 1.33, rshadow (ok), 16:08, 17/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    1. Заходишь на сайт
    2. Выполняешь инструкции Usage examples Python
    3. Traceback ... ModuleNotFoundError: No module named 'vosk.vosk_cffi'


    Типичная программа на питон

     
     
  • 2.34, Аноним (34), 16:36, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Вряд ли, скорее всего это твои типичные руки. Но cffi намекает на то, что там обёртка на питоне вместо питона, это довольно нестандартно.
     
     
  • 3.35, rshadow (ok), 16:48, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    ничуть не сомневался что прибежит какой-нибудь фанатик и будет рассказывать как я по инструкции все неправильно сделал, и что у меня все криво и вообще я сам должен все отладить и допилить напильником
     
     
  • 4.36, Аноним (34), 17:09, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Не знаю как насчёт фанатиков, а то что ты 1 вызов cffi назвал типичной программой на питоне уже многое сообщает окружающим о твоей квалификации.
     
     
  • 5.38, Аноним (38), 19:52, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Или он в курсе и квалифицирован, а инструкция гавно?
     
     
  • 6.43, Аноним (34), 21:04, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Вряд ли, ведь он приплёл питон и сморозил глупость, а не просто поныл на тему низкого качества опенсорса.
     
     
  • 7.45, _hide_ (ok), 11:51, 18/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    О чем Вы? Я никаких инструкций не читал, получил ответ "нет модуля такого-то", поставил (через pip3) и дальше проверил.
    В чем вопрос? Если Вам ссылку на github дают Вы удивляетесь, что Вам нужен браузер/git client? Или опять ничего не понял?
     
     
  • 8.47, Аноним (34), 13:20, 18/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    А если сабж просто из pypi накатить В ридми нет ничего про это, но на сайте ест... текст свёрнут, показать
     
     
  • 9.48, _hide_ (ok), 20:47, 18/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Если бы у бабушки было бы pypi, то она бы была бы дедушкой Если Вы хотите того,... текст свёрнут, показать
     
  • 9.49, nshmyrev (ok), 20:49, 18/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    В ридми на гитхабе бесполезно что-то писать, гитхаб гуглом не индексируется спе... текст свёрнут, показать
     
     
  • 10.50, Аноним (34), 20:55, 18/11/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Т е, вы полагаете, что разработчик, скопировавший себе репу или читающий код на... текст свёрнут, показать
     
     
  • 11.51, nshmyrev (ok), 21:49, 18/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Да, так большинство разработчиков и делают ... текст свёрнут, показать
     
  • 2.40, nshmyrev (ok), 20:23, 17/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Для анализа проблемы хорошо было бы увидеть:

    1. Версию OS (не Alpine какой-нибудь?)
    2. Версию Python
    3. Полный вывод из терминала со списком файлов в текущем каталоге.

     

  • 1.44, Аноним (44), 09:11, 18/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а всё указывает, что верна), и если не пытались, есть шанс, что она сильно уменьшится.
     
     
  • 2.46, nshmyrev (ok), 11:54, 18/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а
    > всё указывает, что верна), и если не пытались, есть шанс, что
    > она сильно уменьшится.

    Это в процессе. Рабочих рук не хватает на все идеи, как всегда.

     

  • 1.52, lockywolf (ok), 04:17, 19/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Совместимость со speech-dispatcher, espeak, и всем таким, имеется? В качестве бэкенда к CMU Sphinx его можно подключить?
     
     
  • 2.53, nshmyrev (ok), 11:56, 19/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > Совместимость со speech-dispatcher, espeak, и всем таким, имеется?

    нет, они же для синтеза, а не для распознавания.

    > В качестве бэкенда к CMU Sphinx его можно подключить?

    нет, тоже особой необходимости в этом нет.

     
     
  • 3.58, lockywolf (ok), 06:24, 21/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > нет, они же для синтеза, а не для распознавания.

    Да, это я проспал, конечно,

    >> В качестве бэкенда к CMU Sphinx его можно подключить?
    > нет, тоже особой необходимости в этом нет.

    А это вот странно. Многие годы Сфинкс был стандартным движком распознавания голоса для Linux.

     

  • 1.54, Shura (??), 14:23, 20/11/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы он хоть что-то понял.
    Не пойму, почему не сделать распознавание по словарю, ведь точность была бы выше.
     
     
  • 2.55, nshmyrev (ok), 14:32, 20/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы
    > он хоть что-то понял.
    > Не пойму, почему не сделать распознавание по словарю, ведь точность была бы
    > выше.

    Распознавание ведётся по словарю. По поводу точности распознавания, мы собираем записи для анализа, можете прислать образец, посмотрим, что там.

     
     
  • 3.56, Shura (??), 19:45, 20/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Может словарь слишком велик. Там при установке стоят 4 скилла. Каждый скилл активируется своим набором команд, но распознавание распознаёт вообще любые слова, хотя по логике как стартовое слово должен распознавать только те, которые заданы в скиллах. Вот это странно.
    Ну может конечно у меня произношение на английском не очень.

    P.S. Нашёл какой-то родственный что ли проект https://github.com/alphacep/kaldi-android-demo/releases/download/2020-01/kaldi так вот там на русском всё отлично. Как бы его вот сюда прикрутить?

     
  • 3.57, Shura (??), 19:56, 20/11/2021 [^] [^^] [^^^] [ответить]  
  • +/
    А, блин, я коммент не сюда добавил. Пробовал-то я приложение dicio
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:
    При перепечатке указание ссылки на opennet.ru обязательно



    Спонсоры:
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2022 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру