Профиль: Аноним (вход | регистрация) неRU opennet.me  
The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Компания Canonical представила систему распознавания речи Myna

17.06.2026 17:49 (MSK)

Жан-Батист Лальман (Jean Baptiste Lallement), директор по инжинирингу в компании Canonical, представил проект Myna, развивающий приложение распознавания речи, которое намерены использовать для организации голосового ввода и распознавания команд на естественном языке в Ubuntu Desktop. Проект распространяется под лицензией GPLv3, но в репозитории пока присутствуют только наброски с описанием модульной архитектуры проекта и его интеграции с Ubuntu.

К выпуску Ubuntu 26.10 приложение планируют довести до пригодности к голосовому вводу текста. Сеанс работы с приложением сводится к активации через клавиатурную комбинацию, диктовки вслух и вставки распознанного текста в текущее приложение через симуляцию клавиатурного ввода по мере его произнесения. Во время включения микрофона в панели будет показываться специальный индикатор. В качестве базового тестируемого окружения заявлен GNOME на базе Wayland, но приложение изначально проектируется с расчётом возможности адаптации для различных сред рабочего стола.

Для распознавания в Myna будет задействована AI-модель, выполняемая локально. Среди требований к приложению: возможность работы без подключения к интернету; включение микрофона только после явной активации режима диктовки горячей клавишей; обработка звука в памяти, очищаемой после каждого использования; запрет на передачу записей звука во внешние сервисы.

Компоненты для распознавания речи, взаимодействия с пользователем, управления диктовкой и подстановки текста развиваются в форме модулей. Окружение для выполнения AI-моделей будет оформлено в виде snap-пакета. В качестве возможных моделей для распознавания упоминаются Whisper, Parakeet, NemoTron и Qwen3-ASR. Сервис управления диктовкой отслеживает нажатие горячей клавиши, активирует микрофон, обращается через API к AI-модели в snap-пакете, перенаправляет в неё звуковой поток из звукового сервиса и координирует потоки данных.

Звуковой сервис обращается к звуковому устройству, как напрямую, так и через звуковые серверы PulseAudio или PipeWire, подавляет шум и выравнивает громкость. Генерируемый моделью текст передаётся в модуль постобработки для чистки, нормализации, форматирования и расстановки знаков препинания. Финальный текст подставляется в приложение через подстановку ввода, например, через Wayland-протокол input-method или IBus.

После стабилизации начальной функциональности не исключается реализация таких возможностей, как работа в роли голосового ассистента, выполнение голосовых команд, голосовое управление рабочим столом и перевод диктуемого текста с автоматическим распознаванием языка.



  1. Главная ссылка к новости (`https://discourse.ubuntu.com/...)
  2. OpenNews: Планы развития Ubuntu Desktop 26.10
  3. OpenNews: Новые модели для распознавания русской речи в библиотеке Vosk
  4. OpenNews: Открыт код системы распознавания и перевода речи Whisper
  5. OpenNews: Mozilla свернула проект DeepSpeech, развивавший движок распознавания речи
  6. OpenNews: В Ubuntu намечена интеграция AI
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/65709-myna
Ключевые слова: myna, speech, voce
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (43) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.4, aname (ok), 18:11, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +17 +/
    Ещё нехватало с терминалом разговаривать
     
     
  • 2.21, Аноним (21), 20:11, 17/06/2026 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Запускать и работать с утилитами GNU при помощи голоса. Это интересно. Хотя, английский надо знать.
     
     
  • 3.26, Аноним (26), 21:37, 17/06/2026 [^] [^^] [^^^] [ответить]  
  • –5 +/
    > Запускать и работать с утилитами GNU при помощи голоса. Это интересно.

    Удачи тебе надиктовать "tar xzvf" и прочие дедовские отрыжки из 70-х.

     
     
  • 4.31, BrainFucker (ok), 21:58, 17/06/2026 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Там же написано, "на естественном языке". Команда будет "распакуй архив в такую-то папку".
     
     
  • 5.41, booksy (?), 03:14, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    Это и картинку будет распознавать. 2026 уже наступил. 128 ГБ VRAM уже в ноутбуке - на локальные llm уже хватает и они есть.
     
     
  • 6.58, X86 (ok), 14:20, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    Это что за ноутбуки такие?
     
     
  • 7.59, Аноним (-), 14:24, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    > Это что за ноутбуки такие?

    Например ThinkPad P15/P16, там можно даже 192ГБ поставить.
    Dell Precision тоже.

    Но дорого, особенно сейчас.

     
     
  • 8.60, Аноним (60), 14:32, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    У вас имеется такой ноутбук ... текст свёрнут, показать
     
     
  • 9.62, Самсоныч (?), 15:09, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    А зачем вам это знать Может, вам ещё ключ от квартиры, где деньги лежат ... текст свёрнут, показать
     
  • 8.67, X86 (ok), 06:10, 19/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    Можно даже 192ГБ поставить чего Если ОЗУ, то это не новость для ноутбуков, а ес... текст свёрнут, показать
     
  • 6.65, яяячс (?), 20:43, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    И распознавание картинок, и распознавание аудио в текст работает на gemma e2b на любом компе и смартфоне с 8 ГБ RAM.
     
  • 4.36, Аноним (36), 01:45, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • –1 +/
    перепишешь все на 1с ? видос запиши поржать как ты будешь конецПроцедуры по 8 раз повторять, я прям так и вижу как пальцы загибаешь, на правой руке что сказал, а на левой что оно тебя услышало и восприняло))), а перед этим еше на бумажке записывать сколько раз надо
     
     
  • 5.43, Андрей (??), 07:42, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    Нет на английском это будет не тоже самое, угу - как же бесит умственноотсталый снобизм, когда люди не понимаю, что для англоговорящих большинство ЯП это и есть 1C, только у них умственноотсталых снобов нет, которые погэгэкают и объяснят им, что борьбы с неловкостью при написании программ им нужно перейти на другой язык...
     
     
  • 6.61, Аноним (36), 14:36, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    а теперь подумай еще раз, сколько на свете людей для которых английский родной? не так уж много, даже в 6 классе я задавался вопросом, а как же они там не путают буквы переменных в расчетах, а все просто, они используют греческий, ислпользовали на заре во всяком случае, и латынь, крайне логично для разных языков, математике например, использовать другой алфавит, нету ни в одном алфавите буквы =, заменять их на eq, или чтото еще буквенное, зачем, другой алфавит другие правила, натягивать на это естественный язык полнейшая глупость, давай еще цифры заменим на буквы, ради каких таких высоких целей.
     
  • 3.30, aname (ok), 21:58, 17/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    > Запускать и работать с утилитами GNU при помощи голоса. Это интересно. Хотя,
    > английский надо знать.

    Но, как будто бы, только что побаловаться, интерес удовлетворить.

    В проде это как бы нинужнО

     
  • 2.40, Аноним (36), 01:54, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +3 +/
    был такой старый анекдот, где подобное прикрутили к досу, и бил гейтс рассказывал.., пока ктото не крикнул "формат ц интер"
     
     
  • 3.46, ss (??), 09:09, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +1 +/
    бил сделал выводы, и в виндовс такое не прокатит
     
  • 3.51, Аноним (51), 11:59, 18/06/2026 Скрыто ботом-модератором     [к модератору]
  • +/
     

  • 1.5, Аноним (5), 18:12, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Зачем? Всякие вейланды и ибасы, а как оно поймет что там в окне происходит, картинку будет распознавать?

    Кому надо агента установят, который все сделает в терминале, для ИИ это нативная среда.

     
     
  • 2.55, _kp (ok), 13:45, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    >>картинку будет распознавать?

    Да, обычно содержимое окна распознают именно как изображение. С NPU это делается легко.  

     

  • 1.6, Аноним (6), 18:46, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    проснулись... есть Handy, Vocalinux, Murmure, Whispering, плюс куча форков первого с массой функций.
     
     
  • 2.37, Аноним (36), 01:47, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    этож каноникл, взять готовое, нахеравертить и выдать продукт на лопате
     

  • 1.8, Аноним (8), 18:59, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    В каком приложении делаются блок-схемы в таком стиле, как на картинках?
     
     
  • 2.27, Аноним (27), 21:40, 17/06/2026 [^] [^^] [^^^] [ответить]  
  • +1 +/
    вручную каллиграфа наняли
     
  • 2.33, Аноним (33), 23:00, 17/06/2026 [^] [^^] [^^^] [ответить]  
  • +1 +/
    yEd
     
  • 2.38, Аноним (36), 01:50, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    на Node-RED похоже
     
  • 2.44, Аноним (44), 08:30, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Похоже на excalidraw
    В obsidian для него есть плагин
    В Trilium Notes впаян (note type - canvas)
     
  • 2.47, ss (??), 09:12, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    мс визио может и не такое, шрифт курсивный только подобрать
     

  • 1.15, Аноним (15), 19:16, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Норм для сервака с консолью. Самое оно. Нужное!
     
  • 1.16, Аноним (16), 19:30, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А мне норм,пользуюсь вводом текста через голос в телефоне,буду и на компе.
     
  • 1.23, Аноним (23), 20:37, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Если это кому-то поможет - отлично. Главное, чтоб можно было отключить при желании и во флаворы не тянули в обязательном порядке.
     
     
  • 2.24, Аноним (24), 20:38, 17/06/2026 [^] [^^] [^^^] [ответить]  
  • –1 +/
    снапд НЕЛЬЗЯ ОТКЛЮЧАТЬ!
     
     
  • 3.25, Аноним (23), 20:49, 17/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    При чём тут снапд? Речь о конкретном приложении.
     
  • 3.42, Аноним (42), 06:54, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    Его нужно отключать
     
  • 3.68, Аноним (68), 07:12, 19/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    шаттлврот, перелогинься
     

  • 1.48, ss (??), 09:14, 18/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    сейчас в некоторых ноутах есть аппаратное отключение камеры и микрофона. самое оно...
     
  • 1.49, Аноним (49), 10:18, 18/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    А как читается то? "Майна"?
     
     
  • 2.52, Аноним (52), 12:07, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    Да, майна. Майны — птицы семейства скворцовых.
    А в сленге строителей есть термины "майна" и "вира", пришедшие из итальянского. Так вот, вира - это вверх, а майна - вниз. Иронично...
     
     
  • 3.57, Аноним (57), 13:57, 18/06/2026 [^] [^^] [^^^] [ответить]  
  • +/
    Что для Жан-Батиста Майна, то для biundug - Муйня (с)

    Вообще шутка на уровне детского сада или учереждения для умственно отсталых (типа двача).
    Печально видеть на техническом форуме такое.

     

  • 1.53, Аноним (53), 12:42, 18/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Жду когда уже через мозг-машина интерфэйс тексты писать можно будет :)
     
  • 1.56, Аноним (56), 13:55, 18/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Хорошее начинание.
    Правда уже есть приложения типа Handy - к которому можно подключить кучу разных моделей для кучи языков.

    Системное может работать лучше, тк уже из коробки, но судя по описанию настроек и гибкости не будет.

    Люди с проблемами со здоровьем одобряют.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2026 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру