forum.opennet.ru

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Режим отображения отдельной подветви беседы		[ Отслеживать ]

Оглавление

Facebook опубликовал открытую систему распознавания речи Wav..., opennews (?), 22-Дек-18, (0) [смотреть все]

Подскажите незнающему, а вот этот продукт возможно на рядовой писюк без всяких т, DHCPep (?), 23:55 , 22-Дек-18, (3) +8 //

Так не получится Как минимум тебе ещё потребуется языковая модель, которую можн, Аноним (8), 04:24 , 23-Дек-18, (8) +13 //

Вот это ответ, так ответ Всем ответам ответ Спасибо , DHCPep (?), 20:37 , 23-Дек-18, (40) +4

В теории, эту штуку можно и в браузер встроить Правда придётся потрудиться Плю, Анон Анонов (?), 04:54 , 23-Дек-18, (10) //

Если именно встроить, то я думаю лучше использовать как библиотеку, а не извраща, commiethebeastie (ok), 05:15 , 23-Дек-18, (11) +4
Всего ничего 1 6 GB, 1 6 GB, 1 9 GB , Андрей (??), 08:17 , 23-Дек-18, (14) –1
Не надо ничего встраивать в браузер 11, Аноним (41), 22:04 , 23-Дек-18, (41) +2

А есть ли что-то попроще, если не нужно распознавать речь, а только точно локали, Аноним3 (?), 07:31 , 23-Дек-18, (13) //

не попроще speaker recognition speech recognition , попроще можно привязать к д, Аноним (46), 12:58 , 24-Дек-18, (46) //

вообщем, как-то так это выглядит speaker diarization system sad vad change p, Аноним (46), 14:38 , 24-Дек-18, (47) //

Да-с, выходит как бы с нуля начинать , Андрей (??), 17:53 , 26-Дек-18, (50)

https pastebin com pystDU4Cв рф это уже делали и не раз, Аноним (46), 20:25 , 26-Дек-18, (51)

Спасибо Но в списке, вроде, большинство научные пробы или общие библиотеки для , Аноним3 (?), 01:28 , 27-Дек-18, (52)

самое интересное можно оставить на потом, в начале возможен модульный pipeline с, Аноним (46), 11:49 , 27-Дек-18, (53)

8220 facebook tracking how their libraries are used and implement features the, Аноним (19), 11:46 , 23-Дек-18, (19) –1
ArrayFire ведь поддерживает OpenCL в качестве бэкэнда TensorFlow, кстати, судя п, corvuscor (ok), 16:20 , 23-Дек-18, (36) //

Без пяти минут неделя vs годами production ready еще и удивляются , Аноним (39), 17:18 , 23-Дек-18, (39) –2
OpenCL уже похоронили, теперь все верят в Vulkan, Аноним (48), 20:16 , 24-Дек-18, (48) –1 //

С OpenGL не перепутал , Владимир (??), 13:53 , 26-Дек-18, (49) +1

Опять приперасты решили свои поделки на свободолюбивых хомячках потестить , Аноним (-), 23:59 , 23-Дек-18, (45) +2
Натренированные модели от предыдущей версии, с этой не стыкуются , Аноним (54), 11:06 , 31-Дек-18, (54)

Сообщения [Сортировка по времени | RSS]

3. "Facebook опубликовал открытую систему распознавания речи Wav..." +8 +/–

Сообщение от DHCPep (?), 22-Дек-18, 23:55

Подскажите незнающему, а вот этот продукт возможно на рядовой писюк без всяких там ускоряющих жпу поставить и условно:
1. Натравить его сперва на папку с звуковыми файлами для тренировки (как кстати указывать расшифрованный текст?)
2. После этого запускать на обработку произвольных звуковых файлов чтобы на выходе получать текстовик?
А то по ссылке на гитхаб прошёл, доки поглядел, вроде всё написано, но что делать неясно :(
Чтобы избежать излишних оффтопиков: Да, пусть я буду нубом :)

Ответить | Правка | Наверх | Cообщить модератору

8. "Facebook опубликовал открытую систему распознавания речи Wav..." +13 +/–

Сообщение от Аноним (8), 23-Дек-18, 04:24

Так не получится. Как минимум тебе ещё потребуется языковая модель, которую можно рассматривать условно как чёрный ящик, в который ты грузишь предложение (по букве, или по слову -- зависит от модели), а он тебе предсказывает продолжение, она нужна для того, чтобы, грубо говоря, взять возможные интерпретации невнятно произнесённого слова и ориентируясь на предложение в целом выбрать наиболее правдоподобную интерпретацию.
Во всём же остальном, я подозреваю всё тоже не сводится к "скормил программе несколько часов разговоров". В новости написано: "Для обучения в проекте реализована техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций." То есть, этот ии самостоятельно может научится разбивать входной звуковой поток на куски вида "слова"/"фонемы", но ему всё равно потребуется какое-то количество записей с полной текстовой транскрипцией.
Ну а вообще, если тебе хочется поиметь что-то подобное, то я бы рекомендовал начать с чего-нибудь, что имеет полноценные туториалы, с чего-нибудь типа: https://www.youtube.com/watch?v=gGqVNuYol6o (если у тебя нет кошки или если ты не выпускаешь её на улицу, то ты можешь поискать какой-нибудь другой проект, который будет тебе приколен, их в интернете достаточно, сейчас каждый школьник собирает какой-нибудь проект поверх нейросетки... ну или не каждый, те школьники опеннета по-моему исключение из правила).
И я очень рекомендую начать с "попроще", потому что для того, чтобы завести Wav2letter++ тебе в любом случае придётся потратить немало времени, и ты можешь часть этого времени потратить на что-нибудь попроще, что позволит тебе хотя бы смутно понимать принципы, представлять себе из каких составных частей собираются такие приложения, понимать процесс в целом от разработки нейросетки до начала использования и тд. Начинать сразу с вещей, которые раз-раз и в продакшн не стоит. Можно, но не стоит.

Ответить | Правка | Наверх | Cообщить модератору

40. "Facebook опубликовал открытую систему распознавания речи Wav..." +4 +/–

Сообщение от DHCPep (?), 23-Дек-18, 20:37

Вот это ответ, так ответ! Всем ответам ответ! :)
Спасибо!

Ответить | Правка | Наверх | Cообщить модератору

10. "Facebook опубликовал открытую систему распознавания речи Wav..." +/–

Сообщение от Анон Анонов (?), 23-Дек-18, 04:54

В теории, эту штуку можно и в браузер встроить. Правда придётся потрудиться. Плюсы можно легко собрать в wasm, но для этого придётся выпилить работу с GPU, потоками, ассемблером, если есть, файловой системой. Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого.
Не берусь судить какой монстр получится, но нейросети уже давно встраивают в телефоны. А оффлайн распознавание голоса было бы неплохой идеей в плане приватности.

Ответить | Правка | К родителю #3 | Наверх | Cообщить модератору

11. "Facebook опубликовал открытую систему распознавания речи Wav..." +4 +/–

Сообщение от commiethebeastie (ok), 23-Дек-18, 05:15

Если именно встроить, то я думаю лучше использовать как библиотеку, а не извращаться как хипстеры.

Ответить | Правка | Наверх | Cообщить модератору

14. "Facebook опубликовал открытую систему распознавания речи Wav..." –1 +/–

Сообщение от Андрей (??), 23-Дек-18, 08:17

> Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого.
> Доступны уже натренированные модели (1, 2, 3) для английского языка.
Всего "ничего": 1.6 GB, 1.6 GB, 1.9 GB.

Ответить | Правка | К родителю #10 | Наверх | Cообщить модератору

41. "Facebook опубликовал открытую систему распознавания речи Wav..." +2 +/–

Сообщение от Аноним (41), 23-Дек-18, 22:04

Не надо ничего встраивать в браузер!!!!11

Ответить | Правка | К родителю #10 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

3. "Facebook опубликовал открытую систему распознавания речи Wav..."	+8 +/–
Сообщение от DHCPep (?), 22-Дек-18, 23:55
Подскажите незнающему, а вот этот продукт возможно на рядовой писюк без всяких там ускоряющих жпу поставить и условно: 1. Натравить его сперва на папку с звуковыми файлами для тренировки (как кстати указывать расшифрованный текст?) 2. После этого запускать на обработку произвольных звуковых файлов чтобы на выходе получать текстовик? А то по ссылке на гитхаб прошёл, доки поглядел, вроде всё написано, но что делать неясно :( Чтобы избежать излишних оффтопиков: Да, пусть я буду нубом :)
Ответить \| Правка \| Наверх \| Cообщить модератору


	8. "Facebook опубликовал открытую систему распознавания речи Wav..."	+13 +/–
	Сообщение от Аноним (8), 23-Дек-18, 04:24
	Так не получится. Как минимум тебе ещё потребуется языковая модель, которую можно рассматривать условно как чёрный ящик, в который ты грузишь предложение (по букве, или по слову -- зависит от модели), а он тебе предсказывает продолжение, она нужна для того, чтобы, грубо говоря, взять возможные интерпретации невнятно произнесённого слова и ориентируясь на предложение в целом выбрать наиболее правдоподобную интерпретацию. Во всём же остальном, я подозреваю всё тоже не сводится к "скормил программе несколько часов разговоров". В новости написано: "Для обучения в проекте реализована техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций." То есть, этот ии самостоятельно может научится разбивать входной звуковой поток на куски вида "слова"/"фонемы", но ему всё равно потребуется какое-то количество записей с полной текстовой транскрипцией. Ну а вообще, если тебе хочется поиметь что-то подобное, то я бы рекомендовал начать с чего-нибудь, что имеет полноценные туториалы, с чего-нибудь типа: https://www.youtube.com/watch?v=gGqVNuYol6o (если у тебя нет кошки или если ты не выпускаешь её на улицу, то ты можешь поискать какой-нибудь другой проект, который будет тебе приколен, их в интернете достаточно, сейчас каждый школьник собирает какой-нибудь проект поверх нейросетки... ну или не каждый, те школьники опеннета по-моему исключение из правила). И я очень рекомендую начать с "попроще", потому что для того, чтобы завести Wav2letter++ тебе в любом случае придётся потратить немало времени, и ты можешь часть этого времени потратить на что-нибудь попроще, что позволит тебе хотя бы смутно понимать принципы, представлять себе из каких составных частей собираются такие приложения, понимать процесс в целом от разработки нейросетки до начала использования и тд. Начинать сразу с вещей, которые раз-раз и в продакшн не стоит. Можно, но не стоит.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	40. "Facebook опубликовал открытую систему распознавания речи Wav..."	+4 +/–
	Сообщение от DHCPep (?), 23-Дек-18, 20:37
	Вот это ответ, так ответ! Всем ответам ответ! :) Спасибо!
	Ответить \| Правка \| Наверх \| Cообщить модератору


	10. "Facebook опубликовал открытую систему распознавания речи Wav..."	+/–
	Сообщение от Анон Анонов (?), 23-Дек-18, 04:54
	В теории, эту штуку можно и в браузер встроить. Правда придётся потрудиться. Плюсы можно легко собрать в wasm, но для этого придётся выпилить работу с GPU, потоками, ассемблером, если есть, файловой системой. Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого. Не берусь судить какой монстр получится, но нейросети уже давно встраивают в телефоны. А оффлайн распознавание голоса было бы неплохой идеей в плане приватности.
	Ответить \| Правка \| К родителю #3 \| Наверх \| Cообщить модератору


	11. "Facebook опубликовал открытую систему распознавания речи Wav..."	+4 +/–
	Сообщение от commiethebeastie (ok), 23-Дек-18, 05:15
	Если именно встроить, то я думаю лучше использовать как библиотеку, а не извращаться как хипстеры.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	14. "Facebook опубликовал открытую систему распознавания речи Wav..."	–1 +/–
	Сообщение от Андрей (??), 23-Дек-18, 08:17
	> Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого. > Доступны уже натренированные модели (1, 2, 3) для английского языка. Всего "ничего": 1.6 GB, 1.6 GB, 1.9 GB.
	Ответить \| Правка \| К родителю #10 \| Наверх \| Cообщить модератору


	41. "Facebook опубликовал открытую систему распознавания речи Wav..."	+2 +/–
	Сообщение от Аноним (41), 23-Дек-18, 22:04
	Не надо ничего встраивать в браузер!!!!11
	Ответить \| Правка \| К родителю #10 \| Наверх \| Cообщить модератору