forum.opennet.ru

Составление сообщения

Исходное сообщение

"Компания Google открыла недостающие исходные тексты для ауди..."
Отправлено Ordu, 03-Июл-21 03:28

> Это все хорошо, непонятно только в каком месте у этого подхода нейросетка,
> вопросы собственно к ней в основном.
Нейросетка нужна для категоризации звуков: грубо говоря, чтобы отличать "о" от "а" и от "э", что позволит каждый звук кодировать максимально эффективным способом заточенным именно под него. То есть, она нужна для _вычленения_ и категоризации: потому как звук обладает протяжённостью, и надо весь входящий поток pcm разбить на кусочки, и каждому кусочку сопоставить категорию.
Когда ты знаешь что вот эти 0.2сек pcm звука -- это "о", то ты берёшь свой генератор звука "о" и подбираешь к нему параметры, чтобы он генерировал бы звук максимально похожий на эти 0.2 секунды pcm. Параметров может быть очень немного, я бы предположил, что их все можно уложить в десятки битов. Это вместо тысяч pcm-сэмплов, каждый из которых в десяток бит размером.
Чтобы распознать, тебе нужна функция которая pcm-у сопоставит категорию звука (о, а, э...). Чем ближе эта функция к человеческому восприятию, тем меньше дополнительной информации надо будет передавать, тем лучше будет результат. То есть тебе нужно создать функцию, аналогичную той функции, которая прошита в человеческий мозг. Как это сделать?
Идея нейросеток, чуть ли не с середины XX века, в том, что нейросетка, математически, это интерполяционная функция, причём поскольку она дифференцируема можно градиентным спуском эту функцию искать. В смысле градиентным спуском двигаться по пространству интерполирующих функций, в поисках той, которая минимизирует ошибку. Это не работало нихрена, потому что куча локальных минимумов, в которых завязали все поиски минимумов. Они успешно находили локальный минимум, который очень далёк от глобального, и на этом всё кончалось. Поэтому сетки были в пару слоёв всего, и гарантированно они работали для выпуклых функций. Собственно весь хайп на нейросетки поэтому в 90-е и сошёл на нет. В 80-х нейросетки обocpaлись знатно, обещали решить все проблемы, а получился пшик.
А в начале '00 придумали deep learning, и примерно тогда же научились шейдеры видеокарт использовать, чтобы нейросетки тренировать. И вот тут-то стало возможным тренировать нейросетки со многими слоями, и стало наконец возможным интерполировать функции той сложности, которой человеческое восприятие пользуется, для которого пяток слоёв нейронов -- это детский лепет. Скажем, кора головного мозга -- это шесть слоёв нейронов (у человека остались ошмётки "старой" и "древней" коры, по 2-3 слоя нейрона, но это legacy оставшийся от пресмыкающихся, и предыдущих). И это всё позволяет сегодня воспроизводить человеческое восприятие, и иногда превосходить его. Искусственного интеллекта как не было, так и нет, но, по-крайней мере, в арсенале программиста появилось искусственное восприятие. И кодеки -- это самое очевидное место, куда это искусственное восприятие применить

Исходное сообщение
"Компания Google открыла недостающие исходные тексты для ауди..." Отправлено Ordu, 03-Июл-21 03:28
> Это все хорошо, непонятно только в каком месте у этого подхода нейросетка, > вопросы собственно к ней в основном. Нейросетка нужна для категоризации звуков: грубо говоря, чтобы отличать "о" от "а" и от "э", что позволит каждый звук кодировать максимально эффективным способом заточенным именно под него. То есть, она нужна для _вычленения_ и категоризации: потому как звук обладает протяжённостью, и надо весь входящий поток pcm разбить на кусочки, и каждому кусочку сопоставить категорию. Когда ты знаешь что вот эти 0.2сек pcm звука -- это "о", то ты берёшь свой генератор звука "о" и подбираешь к нему параметры, чтобы он генерировал бы звук максимально похожий на эти 0.2 секунды pcm. Параметров может быть очень немного, я бы предположил, что их все можно уложить в десятки битов. Это вместо тысяч pcm-сэмплов, каждый из которых в десяток бит размером. Чтобы распознать, тебе нужна функция которая pcm-у сопоставит категорию звука (о, а, э...). Чем ближе эта функция к человеческому восприятию, тем меньше дополнительной информации надо будет передавать, тем лучше будет результат. То есть тебе нужно создать функцию, аналогичную той функции, которая прошита в человеческий мозг. Как это сделать? Идея нейросеток, чуть ли не с середины XX века, в том, что нейросетка, математически, это интерполяционная функция, причём поскольку она дифференцируема можно градиентным спуском эту функцию искать. В смысле градиентным спуском двигаться по пространству интерполирующих функций, в поисках той, которая минимизирует ошибку. Это не работало нихрена, потому что куча локальных минимумов, в которых завязали все поиски минимумов. Они успешно находили локальный минимум, который очень далёк от глобального, и на этом всё кончалось. Поэтому сетки были в пару слоёв всего, и гарантированно они работали для выпуклых функций. Собственно весь хайп на нейросетки поэтому в 90-е и сошёл на нет. В 80-х нейросетки обocpaлись знатно, обещали решить все проблемы, а получился пшик. А в начале '00 придумали deep learning, и примерно тогда же научились шейдеры видеокарт использовать, чтобы нейросетки тренировать. И вот тут-то стало возможным тренировать нейросетки со многими слоями, и стало наконец возможным интерполировать функции той сложности, которой человеческое восприятие пользуется, для которого пяток слоёв нейронов -- это детский лепет. Скажем, кора головного мозга -- это шесть слоёв нейронов (у человека остались ошмётки "старой" и "древней" коры, по 2-3 слоя нейрона, но это legacy оставшийся от пресмыкающихся, и предыдущих). И это всё позволяет сегодня воспроизводить человеческое восприятие, и иногда превосходить его. Искусственного интеллекта как не было, так и нет, но, по-крайней мере, в арсенале программиста появилось искусственное восприятие. И кодеки -- это самое очевидное место, куда это искусственное восприятие применить

Ваше сообщение
Имя*:
EMail:	Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email). Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:	>> Это все хорошо, непонятно только в каком месте у этого подхода нейросетка, >> вопросы собственно к ней в основном. > Нейросетка нужна для категоризации звуков: грубо говоря, чтобы отличать "о" от "а" > и от "э", что позволит каждый звук кодировать максимально эффективным способом > заточенным именно под него. То есть, она нужна для _вычленения_ и > категоризации: потому как звук обладает протяжённостью, и надо весь входящий поток > pcm разбить на кусочки, и каждому кусочку сопоставить категорию. > Когда ты знаешь что вот эти 0.2сек pcm звука -- это "о", > то ты берёшь свой генератор звука "о" и подбираешь к нему > параметры, чтобы он генерировал бы звук максимально похожий на эти 0.2 > секунды pcm. Параметров может быть очень немного, я бы предположил, что > их все можно уложить в десятки битов. Это вместо тысяч pcm-сэмплов, > каждый из которых в десяток бит размером. > Чтобы распознать, тебе нужна функция которая pcm-у сопоставит категорию звука (о, а, > э...). Чем ближе эта функция к человеческому восприятию, тем меньше дополнительной > информации надо будет передавать, тем лучше будет результат. То есть тебе > нужно создать функцию, аналогичную той функции, которая прошита в человеческий мозг. > Как это сделать? > Идея нейросеток, чуть ли не с середины XX века, в том, что > нейросетка, математически, это интерполяционная функция, причём поскольку она дифференцируема > можно градиентным спуском эту функцию искать. В смысле градиентным спуском двигаться > по пространству интерполирующих функций, в поисках той, которая минимизирует ошибку. Это > не работало нихрена, потому что куча локальных минимумов, в которых завязали > все поиски минимумов. Они успешно находили локальный минимум, который очень далёк > от глобального, и на этом всё кончалось. Поэтому сетки были в > пару слоёв всего, и гарантированно они работали для выпуклых функций. Собственно > весь хайп на нейросетки поэтому в 90-е и сошёл на нет. > В 80-х нейросетки обocpaлись знатно, обещали решить все проблемы, а получился > пшик. > А в начале '00 придумали deep learning, и примерно тогда же научились > шейдеры видеокарт использовать, чтобы нейросетки тренировать. И вот тут-то стало возможным > тренировать нейросетки со многими слоями, и стало наконец возможным интерполировать функции > той сложности, которой человеческое восприятие пользуется, для которого пяток слоёв нейронов > -- это детский лепет. Скажем, кора головного мозга -- это шесть > слоёв нейронов (у человека остались ошмётки "старой" и "древней" коры, по > 2-3 слоя нейрона, но это legacy оставшийся от пресмыкающихся, и предыдущих). > И это всё позволяет сегодня воспроизводить человеческое восприятие, и иногда превосходить > его. Искусственного интеллекта как не было, так и нет, но, по-крайней > мере, в арсенале программиста появилось искусственное восприятие. И кодеки -- это > самое очевидное место, куда это искусственное восприятие применить
	Введите код, изображенный на картинке:

При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру