The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Facebook опубликовал открытую систему распознавания речи Wav..., opennews (?), 22-Дек-18, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


3. "Facebook опубликовал открытую систему распознавания речи Wav..."  +8 +/
Сообщение от DHCPep (?), 22-Дек-18, 23:55 
Подскажите незнающему, а вот этот продукт возможно на рядовой писюк без всяких там ускоряющих жпу поставить и условно:
1. Натравить его сперва на папку с звуковыми файлами для тренировки (как кстати указывать расшифрованный текст?)
2. После этого запускать на обработку произвольных звуковых файлов чтобы на выходе получать текстовик?

А то по ссылке на гитхаб прошёл, доки поглядел, вроде всё написано, но что делать неясно :(

Чтобы избежать излишних оффтопиков: Да, пусть я буду нубом :)

Ответить | Правка | Наверх | Cообщить модератору

8. "Facebook опубликовал открытую систему распознавания речи Wav..."  +13 +/
Сообщение от Аноним (8), 23-Дек-18, 04:24 
Так не получится. Как минимум тебе ещё потребуется языковая модель, которую можно рассматривать условно как чёрный ящик, в который ты грузишь предложение (по букве, или по слову -- зависит от модели), а он тебе предсказывает продолжение, она нужна для того, чтобы, грубо говоря, взять возможные интерпретации невнятно произнесённого слова и ориентируясь на предложение в целом выбрать наиболее правдоподобную интерпретацию.

Во всём же остальном, я подозреваю всё тоже не сводится к "скормил программе несколько часов разговоров". В новости написано: "Для обучения в проекте реализована техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций." То есть, этот ии самостоятельно может научится разбивать входной звуковой поток на куски вида "слова"/"фонемы", но ему всё равно потребуется какое-то количество записей с полной текстовой транскрипцией.

Ну а вообще, если тебе хочется поиметь что-то подобное, то я бы рекомендовал начать с чего-нибудь, что имеет полноценные туториалы, с чего-нибудь типа: https://www.youtube.com/watch?v=gGqVNuYol6o (если у тебя нет кошки или если ты не выпускаешь её на улицу, то ты можешь поискать какой-нибудь другой проект, который будет тебе приколен, их в интернете достаточно, сейчас каждый школьник собирает какой-нибудь проект поверх нейросетки... ну или не каждый, те школьники опеннета по-моему исключение из правила).
И я очень рекомендую начать с "попроще", потому что для того, чтобы завести Wav2letter++ тебе в любом случае придётся потратить немало времени, и ты можешь часть этого времени потратить на что-нибудь попроще, что позволит тебе хотя бы смутно понимать принципы, представлять себе из каких составных частей собираются такие приложения, понимать процесс в целом от разработки нейросетки до начала использования и тд. Начинать сразу с вещей, которые раз-раз и в продакшн не стоит. Можно, но не стоит.

Ответить | Правка | Наверх | Cообщить модератору

40. "Facebook опубликовал открытую систему распознавания речи Wav..."  +4 +/
Сообщение от DHCPep (?), 23-Дек-18, 20:37 
Вот это ответ, так ответ! Всем ответам ответ! :)
Спасибо!
Ответить | Правка | Наверх | Cообщить модератору

10. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Анон Анонов (?), 23-Дек-18, 04:54 
В теории, эту штуку можно и в браузер встроить. Правда придётся потрудиться. Плюсы можно легко собрать в wasm, но для этого придётся выпилить работу с GPU, потоками, ассемблером, если есть, файловой системой. Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого.
Не берусь судить какой монстр получится, но нейросети уже давно встраивают в телефоны. А оффлайн распознавание голоса было бы неплохой идеей в плане приватности.
Ответить | Правка | К родителю #3 | Наверх | Cообщить модератору

11. "Facebook опубликовал открытую систему распознавания речи Wav..."  +4 +/
Сообщение от commiethebeastie (ok), 23-Дек-18, 05:15 
Если именно встроить, то я думаю лучше использовать как библиотеку, а не извращаться как хипстеры.
Ответить | Правка | Наверх | Cообщить модератору

14. "Facebook опубликовал открытую систему распознавания речи Wav..."  –1 +/
Сообщение от Андрей (??), 23-Дек-18, 08:17 
> Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого.
> Доступны уже натренированные модели (1, 2, 3) для английского языка.

Всего "ничего": 1.6 GB, 1.6 GB, 1.9 GB.

Ответить | Правка | К родителю #10 | Наверх | Cообщить модератору

41. "Facebook опубликовал открытую систему распознавания речи Wav..."  +2 +/
Сообщение от Аноним (41), 23-Дек-18, 22:04 
Не надо ничего встраивать в браузер!!!!11
Ответить | Правка | К родителю #10 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру