The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Новый выпуск системы синтеза речи Silero

22.04.2022 15:25

Доступен новый публичный выпуск нейросетевой системы синтеза речи Silero Text-to-Speech. Проект в первую очередь нацелен на создание современной высококачественной системы синтеза речи, не уступающей коммерческим решениям от корпораций и доступной для всех желающих без использования дорогого серверного оборудования.

Модели распространяются под лицензией GNU AGPL, но развивающая проект компания не раскрывает механизм тренировки моделей. Для запуска можно использовать PyTorch и фреймворки с поддержкой формата ONNX. Синтез речи в Silero основан на использовании глубокого модифицированных современных нейросетевых алгоритмов и методов цифровой обработки сигналов.

Отмечается, что основной проблемой современных нейросетевых решений для синтеза речи является то, что зачастую они доступны только в рамках платных облачных решений, а публичные продукты имеют высокие требования к оборудованию, более низкое качество или не являются законченными и готовыми для использования продуктами. Например, для беспроблемного запуска одной из новых популярных архитектур end-to-end синтеза, VITS, в режиме синтеза (то есть не для тренировки моделей) требуются видеокарты с более чем 16 гигабайтами VRAM.

Вопреки сложившемуся тренду решения Silero успешно запускаются даже на 1 потоке x86 процессора Intel c инструкциями AVX2. На 4 потоках процессора синтез позволяет синтезировать от 30 до 60 секунд в секунду в режиме синтеза 8 kHz, в режиме 24 kHz - 15-20 сек., а в режиме 48 kHz - около 10 сек.

Основные особенности нового выпуска Silero:

  • Размер модели снижен в 2 раза до 50 мегабайт;
  • Модели умеют делать паузы;
  • Доступно 4 высококачественных голоса на русском языке (и бесконечное число случайных). Примеры произношения;
  • Модели стали в 10 раз быстрее и, например, в режиме 24 kHz позволяют синтезировать до 20 секунд аудио в секунду на 4 потоках процессора;
  • Все варианты голосов для одного языка упакованы в одну модель;
  • Модели могут принимать целые абзацы текста на вход, поддерживаются SSML-теги;
  • Синтез работает сразу в трёх частотах дискретизации на выбор - 8, 24 и 48 килогерц;
  • Решены "детские проблемы": нестабильность и пропуск слов;
  • Добавлены флаги для контроля автоматической простановки ударений и простановки буквы "ё".

Сейчас для самой новой версии синтеза публично доступны 4 голоса на русском языке, но в ближайшем будущем будет опубликована следующая версия со следующими изменениями:

  • Скорость синтеза вырастет еще в 2-4 раза;
  • Будут обновлены модели синтеза для языков СНГ: Калмыцкого, Татарского, Узбекского и Украинского;
  • Будут добавлены модели для европейских языков;
  • Будут добавлены модели для индийских языков;
  • Будут добавлены модели для английского языка.

Некоторые из системных проблем, присущих синтезу Silero:

  • В отличии от более традиционных решений для синтеза, таких как RHVoice, у синтеза Silero нет интеграции с SAPI, простых к установке клиентов и интеграций для Windows и Android;
  • Скорость, хотя и является беспрецедентно высокой для такого решения, может быть недостаточной для синтеза на лету на слабых процессорах в высоком качестве;
  • Решение для автоматической расстановки ударений не обрабатывает омографы (слова по типу зАмок и замОк) и все ещё делает ошибки, но данная недоработка будет исправлена в будущих релизах;
  • Текущая версия синтеза не работает на процессорах без инструкций AVX2 (или необходимо специально изменять настройки PyTorch), поскольку один из модулей внутри модели квантизован;
  • Текущая версия синтеза по сути имеет единственной зависимостью PyTorch, вся начинка "зашита" внутрь модели и JIT-пакетов. Исходники моделей не публикуются, равно как и код для запуска моделей из под клиентов PyTorch для других языков;
  • Libtorch, доступный для мобильных платформ, гораздо более громоздкий, чем ONNX runtime, но ONNX-версия модели пока не предоставляется.


  1. Главная ссылка к новости (https://habr.com/ru/post/66056...)
  2. OpenNews: Выпуск синтезатора речи RHVoice 1.8.0
  3. OpenNews: Компания Mozilla представила систему синтеза речи LPCNet
  4. OpenNews: Представлен первый релиз свободного синтезатора речи Gnuspeech
  5. OpenNews: Для Wikipedia будет разработан синтезатор речи
  6. OpenNews: Новые модели для распознавания русской речи в библиотеке Vosk
Автор новости: Александр
Лицензия: CC-BY
Тип: Программы
Короткая ссылка: https://opennet.ru/57061-silero
Ключевые слова: silero, voice, tts, text-to-speech
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (29) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, dullish (ok), 15:25, 22/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Прям вот отличные голоса! Но, пока не будет апэкашек для андроида, не взлетит.
     
     
  • 2.17, Первая буква (?), 14:59, 23/04/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Чем отличные? Заложенным носом?
     
  • 2.18, Аноним (-), 01:02, 25/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > развивающая проект компания не раскрывает механизм тренировки моделей.
    > Для запуска можно использовать PyTorch

    Чемодан батареек и внешнюю видяху сначала докупи.

     
     
  • 3.20, dullish (ok), 01:46, 25/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Чемодан батареек и внешнюю видяху сначала докупи.

    Разрабы говорят, что, в теории, андроид потянет, но у них лапки. Да и во всех современных смартах, включая бюджетники есть какой-никакой "нейроускоритель". Если его каким-то макаром прицепить, то, возможно, чемодан батареек не понадобится.

     
     
  • 4.21, Александр (??), 09:44, 26/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Мы явно указываем, что наши модели запускаются и вменяемо работают даже на 1 потоке процессора.

    Откуда все эти сказки про обязательность видеокарт - вероятно понятно только автору таких комментариев.

     
     
  • 5.25, dullish (ok), 18:14, 26/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Мы явно указываем, что наши модели запускаются и вменяемо работают даже на
    > 1 потоке процессора.
    > Откуда все эти сказки про обязательность видеокарт - вероятно понятно только автору
    > таких комментариев.

    Как я понимаю, речь идёт об одном потоке сферического зиона в вакууме. Да и критерий "вменяемости" немного расплывчатый. Отсюда и странные толкования.

     

  • 1.2, Аноним (2), 15:38, 22/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    Время TTS на десктопах приближается.
     
     
  • 2.19, Аноним (-), 01:03, 25/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Все это было уже лет 20. И их главная проблема была вовсе не в качестве как таковом.
     

  • 1.3, Аноним (3), 15:52, 22/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +10 +/
    > Решены "детские проблемы": нестабильность и пропуск слов;

    У меня в детстве таких проблем не было.

     
     
  • 2.15, Аноним (15), 10:01, 23/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Да, ладно!
     

  • 1.4, keydon (ok), 16:07, 22/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > Вопреки сложившемуся тренду решения Silero успешно запускаются даже на 1 потоке x86 процессора Intel c инструкциями AVX2. На 4 потоках процессора синтез позволяет синтезировать от 30 до 60 секунд в секунду в режиме синтеза 8 kHz, в режиме 24 kHz - 15-20 сек., а в режиме 48 kHz - около 10 сек.

    Как будто на школьный утренник попал где считают что "1 поток процессора" это неизменная величина по которой можно судить о быстродействии софта.

     
     
  • 2.6, Аноним (6), 16:54, 22/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    судя по этой страничке https://github.com/snakers4/silero-models/wiki/Performance-Benchmarks
    там CPU - Intel i7-6800K CPU @ 3.40GHz
     
  • 2.7, Аноним (6), 16:58, 22/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    или
    All of the below benchmarks and estimates were run on 6 cores (12 threads) of AMD Ryzen Threadripper 1920X 12-Core Processor (3500 МHz).
     
     
  • 3.22, Александр (??), 09:48, 26/04/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Не совсем понимаю, в чем здесь претензия.

    Если софту достаточно одного потока процессора для работы - это огромное достижение, с учетом того, что большинство современных публикаций по синтезу вообще мягко намекают, что нужны карточки уровня V100 для работы их синтеза.

    То, что вы нашли никак не связанный с новым релизом бенчмарк старых моделей STT и натянули ее на глобус, тоже вызывает скорее только ухмылку.

    Понятно, что чем слабее процессор, тем медленнее будет работать, но весь этот хейт на пустом месте кажется просто курам насмех, с учетом того, что "модные" сетки не запускаются на карточках с менее чем 16 GB VRAM.


     

  • 1.5, Аноним (5), 16:13, 22/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Ребята молодцы, крутая штука!
     
  • 1.8, Аноним (8), 18:55, 22/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    наверни торч
    наверни сабж
    выкачай модель
    накидай пихтоноскрипт

    ты же хочешь просто книжки почитать как icebook reader c digalo nikolai во времена winxp, да?

     
     
  • 2.11, Аноним (11), 19:29, 22/04/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Это буквально в 2 клика. На то, чтобы найти варезник с ice book reader, сегодня куда больше времени потратишь. Да и качество там такое себе было.
     
     
  • 3.12, Аноним (8), 19:55, 22/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >буквально в 2 клика
    >ERROR: Could not find a version that satisfies the requirement torchaudio==0.10.0 (from silero)
    >ERROR: No matching distribution found for torchaudio==0.10.0
     
     
  • 4.24, Александр (??), 09:50, 26/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Такой вопрос лучше задать в репозитории.
    Но вообще для синтеза torchaudio не нужен.
    Просто посмотрите standalone примеры в приложенном колаб-ноутбуке.
     

  • 1.10, Аноним (10), 19:15, 22/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >но развивающая проект компания не раскрывает механизм тренировки моделей

    Засуньте в https://github.com/lutzroeder/netron

     
  • 1.13, Аноним (13), 20:39, 22/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    У них второй год просят докер-образ сделать с RestAPI каким-нибудь, а воз и ныне там ((
    Прям хоть самому изучить пайтон и сделать...
     
     
  • 2.16, Аноним (16), 10:46, 23/04/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    можно быть спокойным за то, что ни ты, ни другое трепло с опеннета этим не займется
     
     
  • 3.23, Александр (??), 09:49, 26/04/2022 [^] [^^] [^^^] [ответить]  
  • +/
    У коммерческой версии такой докер-образ естественно есть.
    Если вы хотите сервис - будьте добры купить лицензию.
     

  • 1.14, prokoudine (ok), 01:04, 23/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    > Модели стали в 10 раз быстрее и, например, в режиме 24 kHz позволяют синтезировать до 20 секунд аудио в секунду на 4 потоках процессора;

    Перешли на HiFi-GAN что ли?

     
  • 1.26, Аноним (26), 00:14, 27/04/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Как ЭТО установить не пойму?
     
  • 1.27, Пятьюшестьвеник (?), 20:12, 10/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Работает!
    Я впихнул pytorch в embedded python 3.10 - на win10 это нормально прокатывает ;) Скачал модель.
    На основе примеров соорудил питон-скрипт, делящий текст на части < 1000 символов и озвучивающий их. И чтобы ffmpeg на лету переводила wav -> mp3.
    Получилась переносимая сборка - на флешку помещается. Запускал на ноуте с i7, threads=4, rate=48000. Книжка средних размеров переводится в аудио минут за 30..40 :))
     
  • 1.28, Пятьюшестьвеник (?), 17:04, 12/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Читает шикарно ;)
     
     
  • 2.29, Дмитрий (??), 20:52, 15/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Приветствую. Так будь же добрым человеком, расшарь где нить для ламеров свой вариант для флэшки!!!! Я бы, например, был тебе очень благодарен...
     

  • 1.30, Пятьюшестьвеник (?), 16:24, 23/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    На форуме https://mytts-info.ucoz.net/
    есть свободный доступ аж к 3 сборкам разных авторов :)

    В теме Программы, использующие синтез речи в Windows » другие программы

    От Pin240: https://t.me/myttsinfo/287
    (Инициатор создания сборки для Silero, свою всё еще дорабатывает)

    Oт tonio_k: сообщение #47: https://mytts-info.ucoz.net/forum/20-159-4
    ссылки на скачивание + инструкция. Стартовал вторым - но на финише первый, сборка - рабочая.

    Последним спохватился я: https://disk.yandex.ru/d/9oyIVwAzQJH5Cg
    Экспериментальная сборка, содержит модели Silero для 6 языков, в т.ч. русский.
    Подробности: http://aloys.narod.ru/sof/1/demagog.htm#18
    параграф Demagog-x64 + SileroTTS. Там же прямая ссылка и на сборку tonio_k.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2022 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру