The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Компания Google открыла недостающие исходные тексты для аудиокодека Lyra"
Версия для распечатки Пред. тема | След. тема
Форум Разговоры, обсуждение новостей
Исходное сообщение [ Отслеживать ]
Заметили полезную информацию ? Пожалуйста добавьте в FAQ на WIKI.
. "Компания Google открыла недостающие исходные тексты для ауди..." +1 +/
Сообщение от Ordu (ok), 03-Июл-21, 03:28 
> Это все хорошо, непонятно только в каком месте у этого подхода нейросетка,
> вопросы собственно к ней в основном.

Нейросетка нужна для категоризации звуков: грубо говоря, чтобы отличать "о" от "а" и от "э", что позволит каждый звук кодировать максимально эффективным способом заточенным именно под него. То есть, она нужна для _вычленения_ и категоризации: потому как звук обладает протяжённостью, и надо весь входящий поток pcm разбить на кусочки, и каждому кусочку сопоставить категорию.

Когда ты знаешь что вот эти 0.2сек pcm звука -- это "о", то ты берёшь свой генератор звука "о" и подбираешь к нему параметры, чтобы он генерировал бы звук максимально похожий на эти 0.2 секунды pcm. Параметров может быть очень немного, я бы предположил, что их все можно уложить в десятки битов. Это вместо тысяч pcm-сэмплов, каждый из которых в десяток бит размером.

Чтобы распознать, тебе нужна функция которая pcm-у сопоставит категорию звука (о, а, э...). Чем ближе эта функция к человеческому восприятию, тем меньше дополнительной информации надо будет передавать, тем лучше будет результат. То есть тебе нужно создать функцию, аналогичную той функции, которая прошита в человеческий мозг. Как это сделать?

Идея нейросеток, чуть ли не с середины XX века, в том, что нейросетка, математически, это интерполяционная функция, причём поскольку она дифференцируема можно градиентным спуском эту функцию искать. В смысле градиентным спуском двигаться по пространству интерполирующих функций, в поисках той, которая минимизирует ошибку. Это не работало нихрена, потому что куча локальных минимумов, в которых завязали все поиски минимумов. Они успешно находили локальный минимум, который очень далёк от глобального, и на этом всё кончалось. Поэтому сетки были в пару слоёв всего, и гарантированно они работали для выпуклых функций. Собственно весь хайп на нейросетки поэтому в 90-е и сошёл на нет. В 80-х нейросетки обocpaлись знатно, обещали решить все проблемы, а получился пшик.

А в начале '00 придумали deep learning, и примерно тогда же научились шейдеры видеокарт использовать, чтобы нейросетки тренировать. И вот тут-то стало возможным тренировать нейросетки со многими слоями, и стало наконец возможным интерполировать функции той сложности, которой человеческое восприятие пользуется, для которого пяток слоёв нейронов -- это детский лепет. Скажем, кора головного мозга -- это шесть слоёв нейронов (у человека остались ошмётки "старой" и "древней" коры, по 2-3 слоя нейрона, но это legacy оставшийся от пресмыкающихся, и предыдущих). И это всё позволяет сегодня воспроизводить человеческое восприятие, и иногда превосходить его. Искусственного интеллекта как не было, так и нет, но, по-крайней мере, в арсенале программиста появилось искусственное восприятие. И кодеки -- это самое очевидное место, куда это искусственное восприятие применить

Ответить | Правка | Наверх | Cообщить модератору

Оглавление
Компания Google открыла недостающие исходные тексты для аудиокодека Lyra, opennews, 02-Июл-21, 11:47  [смотреть все]
Форумы | Темы | Пред. тема | След. тема



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру