forum.opennet.ru

"Компания Google открыла недостающие исходные тексты для аудиокодека Lyra"

Форум Разговоры, обсуждение новостей
Версия для распечатки	Пред. тема \| След. тема

Исходное сообщение

[ Отслеживать ]

Заметили полезную информацию ? Пожалуйста добавьте в FAQ на WIKI.

. "Компания Google открыла недостающие исходные тексты для ауди..."	+1 +/–
Сообщение от Ordu (ok), 03-Июл-21, 03:28
> Это все хорошо, непонятно только в каком месте у этого подхода нейросетка, > вопросы собственно к ней в основном. Нейросетка нужна для категоризации звуков: грубо говоря, чтобы отличать "о" от "а" и от "э", что позволит каждый звук кодировать максимально эффективным способом заточенным именно под него. То есть, она нужна для _вычленения_ и категоризации: потому как звук обладает протяжённостью, и надо весь входящий поток pcm разбить на кусочки, и каждому кусочку сопоставить категорию. Когда ты знаешь что вот эти 0.2сек pcm звука -- это "о", то ты берёшь свой генератор звука "о" и подбираешь к нему параметры, чтобы он генерировал бы звук максимально похожий на эти 0.2 секунды pcm. Параметров может быть очень немного, я бы предположил, что их все можно уложить в десятки битов. Это вместо тысяч pcm-сэмплов, каждый из которых в десяток бит размером. Чтобы распознать, тебе нужна функция которая pcm-у сопоставит категорию звука (о, а, э...). Чем ближе эта функция к человеческому восприятию, тем меньше дополнительной информации надо будет передавать, тем лучше будет результат. То есть тебе нужно создать функцию, аналогичную той функции, которая прошита в человеческий мозг. Как это сделать? Идея нейросеток, чуть ли не с середины XX века, в том, что нейросетка, математически, это интерполяционная функция, причём поскольку она дифференцируема можно градиентным спуском эту функцию искать. В смысле градиентным спуском двигаться по пространству интерполирующих функций, в поисках той, которая минимизирует ошибку. Это не работало нихрена, потому что куча локальных минимумов, в которых завязали все поиски минимумов. Они успешно находили локальный минимум, который очень далёк от глобального, и на этом всё кончалось. Поэтому сетки были в пару слоёв всего, и гарантированно они работали для выпуклых функций. Собственно весь хайп на нейросетки поэтому в 90-е и сошёл на нет. В 80-х нейросетки обocpaлись знатно, обещали решить все проблемы, а получился пшик. А в начале '00 придумали deep learning, и примерно тогда же научились шейдеры видеокарт использовать, чтобы нейросетки тренировать. И вот тут-то стало возможным тренировать нейросетки со многими слоями, и стало наконец возможным интерполировать функции той сложности, которой человеческое восприятие пользуется, для которого пяток слоёв нейронов -- это детский лепет. Скажем, кора головного мозга -- это шесть слоёв нейронов (у человека остались ошмётки "старой" и "древней" коры, по 2-3 слоя нейрона, но это legacy оставшийся от пресмыкающихся, и предыдущих). И это всё позволяет сегодня воспроизводить человеческое восприятие, и иногда превосходить его. Искусственного интеллекта как не было, так и нет, но, по-крайней мере, в арсенале программиста появилось искусственное восприятие. И кодеки -- это самое очевидное место, куда это искусственное восприятие применить
Ответить \| Правка \| Наверх \| Cообщить модератору

Оглавление

Компания Google открыла недостающие исходные тексты для аудиокодека Lyra, opennews, 02-Июл-21, 11:47 [смотреть все]

Интересно будет потыкать И ещё интересно, когда это завезут во всякие там Matri, Аноним, 02-Июл-21, 11:47 (1) //
- А смысл тыкать в этот низкокачественный звук когда уже наверное кругом идут виде, Аноним, 02-Июл-21, 12:01 (3) //
  - Так у местных целерончик для 775 сокета с полугигом оперативы до сих пор в топчи, Аноним, 02-Июл-21, 13:13 (8) //
    - Император велит всем на Эльбрус , Аноним, 02-Июл-21, 22:56 (41)
  - За МКАД выезжать пробовали Не бойтесь, те, кто вам говорил, про людей с пёсьими, ryoken, 02-Июл-21, 13:14 (10) //
    - А что, за КАД ом есть жизнь Внутри МКАД а не находится Ородруин , Жироватт, 02-Июл-21, 13:29 (12)
      - Есть Нет, не находится D , ryoken, 02-Июл-21, 14:20 (21)
        
        И в 5 км от МКАД интернет стоит 1000 р мес , Аноним, 02-Июл-21, 22:59 (42)
    - Недавно папе звонил в глухую деревню в Костромской области С видео На удивлени, topin89, 02-Июл-21, 13:37 (14)
      - Статья об аудиокодеке, вообще-то , Demo, 03-Июл-21, 11:21 (60)
    - А вот подземные карлики, чупакабры, и гоблины, представляют реальную опасность , Аноньимъ, 02-Июл-21, 15:59 (25)
      - Блин Что делать если эльфийки из Мордовии носы воротят, зато дальневосточные де, Жироватт, 02-Июл-21, 16:23 (26)
        
        Выходить из радиуса поражения , ryoken, 02-Июл-21, 16:30 (27)
        
        Так самонаводящиеся Домой прихожу, кольцо на стенку вешаю, а там в кровати уже , Жироватт, 02-Июл-21, 16:52 (28)
        
        Game over, чувак , Аноним, 02-Июл-21, 23:02 (43)
        
        https m youtube com watch v ZijMwIdrIb4, Аноньимъ, 03-Июл-21, 09:14 (54)
    - Ближайший действительно хреновый интернет в замкадье будет в Польше Так что не, pofigist, 05-Июл-21, 01:18 (78)
  - Они для ситуаций, когда связь хреновая Военные радиостанции там, они должны раб, topin89, 02-Июл-21, 13:42 (16) //
    - Я постоянно встречаю, что когда соты не вытягивают - пинг доходит до нескольких , Anon2, 02-Июл-21, 23:24 (45)
      - Пинг в несколько минут 8212 это неправильно настроенная буферизация , Demo, 03-Июл-21, 11:26 (61)
  - Бывают ситуации, когда скорость мобильного интернета очень небольшая Хотя я на , Аноним, 02-Июл-21, 18:41 (31)
  - Для токса и джами и Peer-to-Peer Streaming Peer Protocol пригодится, там всё чер, Аноним, 03-Июл-21, 09:14 (53)
раньше могло послышаться только гуманоидам на одном конце провода, а теперь ко, Нанобот, 02-Июл-21, 11:47 (2) //
- Ну, оно для тех ситуаций, когда без него вообще ничего не разобрать , Онаним, 02-Июл-21, 12:08 (4) //
  - Гугл недавно чела маньяком сделал, представь что они с этими подставами могут дл, paulus, 03-Июл-21, 17:09 (63)
- Вот тоже подумалось про автокоррекцию теперь уже и в голосовых каналах , x3who, 02-Июл-21, 12:57 (7)
- Теперь записывай не только входящие звонки, но и исходящие , Аноним, 02-Июл-21, 14:20 (22)
- Я так понимаю сперва идёт распознавание слов у текст, а для клиента уже вывод из, Kximer, 02-Июл-21, 19:35 (32) //
  - В доке либы написано, что передаются сжатые сетью мел-кепстрограммы , Аноним, 03-Июл-21, 09:16 (55)
- Думаю на стороне отправителя голос в текст преобразуется, а на стороне клиента, , Kximer, 02-Июл-21, 19:37 (33)
Вот теперь неплохая тема, можно да, палочкой потыкать По крайней мере больше не , Онаним, 02-Июл-21, 12:09 (5)
У вас ссылка отклеилась , Аноним, 02-Июл-21, 12:38 (6)
Даже довольно интересное слово , ryoken, 02-Июл-21, 13:13 (9)
Неплохо, но Но Меня смущает эта речевая модель на базе системы машинного , Жироватт, 02-Июл-21, 13:33 (13) //
- Если что-то не нравится то возьми исходники и сделай как тебе нужно, cyкa вечно , Твой пукан шатается, 02-Июл-21, 14:01 (19) //
  - 70 000 часов мне тоже самому начитать для обучения , lockywolf, 04-Июл-21, 18:53 (75)
- Какой-нибудь сибирский говор и московский говор еще близки друг к другу А вот б, hefenud, 02-Июл-21, 17:40 (29)
- ДВшник, чтоле , Dzen Python, 02-Июл-21, 20:27 (36)
Человек надиктовывает, а робот говорит 128514 , Аноним, 02-Июл-21, 13:42 (15)
Снова эти негросети, снова искусственный идиот Трендовость 10 А что если по го, InuYasha, 02-Июл-21, 13:50 (17) //
- 171 Мартин заметил, что во время сеанса связи он слышал только свой голос ЛП , Аноним, 02-Июл-21, 13:58 (18)
- А человеческое восприятие симулировать без нейросеток не получается То есть обр, Ordu, 02-Июл-21, 14:28 (23) //
  - Понятно Но, получается, для не- фонетических символических звуков остаток бу, InuYasha, 02-Июл-21, 20:36 (37) //
    - Напиши не нулевой 129315 , Твой пукан шатается, 02-Июл-21, 20:39 (38)
    - Возможно Но кого это колышет Кодек для передачи речи По каналу 3kbps Вон гля, Ordu, 03-Июл-21, 07:33 (51)
      - Данунафиг У меня и на дайлапе скорость лучше была Тогда уж проще текстом или T, InuYasha, 03-Июл-21, 10:52 (57)
        
        Ок Я не буду тебя больше убеждать Хочешь общаться текстом по дайлапу, общайся , Ordu, 03-Июл-21, 10:55 (58)
        
        Я думал, у нас тут обмен мнениями а не убеждение Да и не суть Каждому своё нра, InuYasha, 03-Июл-21, 12:03 (62)
        
        Текстом или TTS из того же например скафандра в драконе может выйти затруднитель, Онаним, 03-Июл-21, 19:10 (68)
  - Это все хорошо, непонятно только в каком месте у этого подхода нейросетка, вопро, RM, 02-Июл-21, 23:19 (44) //
    - Нейросетка нужна для категоризации звуков грубо говоря, чтобы отличать о от , Ordu, 03-Июл-21, 03:28 (47)
      - Молоток Хорошо описал 128077 , Cooler, 05-Июл-21, 09:51 (79)
    - Определение и синтез звуков речи Чтобы вычленить собственно слоги и прочие звуки, Онаним, 03-Июл-21, 19:12 (69)
Если не копилефт, то не нужен их кодек , Аноним, 02-Июл-21, 14:03 (20) //
- У гпльщиков штатно бомбит от свободных лицензий , Аноним, 02-Июл-21, 14:58 (24) //
  - Пермиссивка не свобода, свобода - это только, и только копилефт , Аноним, 02-Июл-21, 17:56 (30) //
    - Свобода - это когда автор кода сам решает кому и на каких условиях его отдавать , Аноним, 03-Июл-21, 17:10 (64)
      - Нет Свобода бывает только с копилефтом Ты описываешь самодурство , Аноним, 03-Июл-21, 18:20 (65)
        
        Это здравый смысл, но гпльщикам не понять Софт - это такой же товар как и любой, Аноним, 04-Июл-21, 07:56 (71)
  - и gpl и пермессив - свободные лицензии Разница лишь в том что gpl не позволяет , макпыф, 02-Июл-21, 19:39 (34) //
    - Это да, ведь гугл, амазон и клаудфлер - совсем не всякие васяны , Аноним, 02-Июл-21, 22:20 (40)
      - Но поведение у них типично васянское , Аноним, 03-Июл-21, 05:08 (49)
  - Альтернативные рты гпльщиков издают штатные хлопки , чучело ты неполиткорректно, Аноним, 03-Июл-21, 22:28 (70) //
    - ГНУ - по факту стандарт А вот альтернативные - это пермиссивщики лижущие зад ко, Аноним, 04-Июл-21, 15:24 (74)
      - Ну выбрось из линупca все что там под свободными лицензиями натаскано и оставь т, Аноним, 04-Июл-21, 20:14 (76)
      - Надеюсь, ты написал это сообщение из под lynx в фреймбуфере LibreLinux А то вед, Аноним, 04-Июл-21, 21:38 (77)
- Лицензия Apache, версия 2 0 apache2 Это лицензия свободных программ, совме, hefenud, 02-Июл-21, 20:16 (35) //
  - А среди своих газов ты не заметил мысли о том, что за пермиссивкой, как правило,, Аноним, 03-Июл-21, 05:07 (48) //
    - То есть тебе мнение FSF пофигу, что лицензия совместима с GPLv3Понятно, hefenud, 03-Июл-21, 07:43 (52)
      - Ещё раз вдумчиво прочитай сообщение наверху И не пари чушь , Аноним, 03-Июл-21, 18:21 (66)
    - А вы заметили, что программу выложили сами проприетарщики под пермиссивной лицен, Аноним, 03-Июл-21, 09:24 (56)
      - Я ничего не заметил кроме вашего словоблудия бессмысленного и беспощадного , Аноним, 03-Июл-21, 18:22 (67)
Для того, чтобы собрать минимальный Базель для сборки Базеля, нужна Ява , pashev.me, 02-Июл-21, 21:07 (39) //
- Действительно, OpenJDK хочет Да и сами исходники Bazel 260 мегов Это сборочная, Аноним, 02-Июл-21, 23:26 (46)
Чем он лучше стандартизированного, свободного и популярного Opus , Хан, 03-Июл-21, 05:30 (50) //
- не взаимозаменяемы ниже 8kbps, проще коррекция и прочие слои из-за аналитичности, Аноним, 04-Июл-21, 11:48 (72)
- Fig 2 Quality vs SNR for the pruned and quantized systemshttps arxiv org pdf, Аноним, 04-Июл-21, 12:07 (73)
Фух Лишь бы не Clang Так заживём 129318 127999 , Demo, 03-Июл-21, 11:17 (59)

Форумы | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру