The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Представлена техника воссоздания речи по вибрации предметов на видеозаписи

08.08.2014 12:56

Группа исследователей из Массачусетского технологического института в сотрудничестве с Microsoft и Adobe, разработала технику воссоздания речи на основе анализа вибрации предметов в видеозаписи. Для воссоздания речи достаточно записи с частотой 60 кадров в секунду и наличия в кадре легко вибрирующих предметов, таких как упаковка от чипсов, стакан воды и даже листья комнатных растений.

Техника воссоздания речи по вибрации предметов не нова и активно используется спецслужбами для организации подслушивания в помещениях по вибрации оконного стекла или предметов. Но до сих пор для воплощения данной техники требовались специализированные высокочувствительные устройства, такие как лазерные микрофоны. Новый метод позволяет обойтись обычной видеокамерой с разрешением порядка 700x400.

Суть метода в том, что для того чтобы уловить колебания предмета в несколько микрометров, которые невозможно заметить через перемещение пикселей (изменение в 5/1000 пикселя), используется анализ изменения цвета отдельных пикселей граничных областей предметов. Камера не улавливает малые вибрации на уровне перемещения пикселей, но отражает их через аберрации цветового спектра. Изначально эксперименты проводились с использованием высокоскоростных камер, способных снимать с частотой 2-6 тысяч кадров в секунду, но по мере усовершенствования техники разработчики смогли обеспечить разбор речи и при съёмке обычной DSLR-камерой, выдающей 60 кадров в секунду.

Для доведения частоты выборки до значений, пригодных для анализа звуковых колебаний использовалась особенность вывода данных с сенсора цифровых камер. Данные с сенсора выдаются не одновременно, а построчно, те каждая следующая строка сканируется с небольшим запаздыванием, что позволяет рассматривать разные пиксели по вертикали как несущие полные данные об экспозиции в разные моменты времени.

Из пока не решённых ограничений отмечается необходимость съемки вибрирующего предмета крупным планом. Максимальное расстояние до камеры, с которого удалось обеспечить воссоздание приемлемого для разбора качества звука, составило 4 метра. В качестве возможного пути для обхода данного ограничения упоминается использование мощных линз для увеличения. Процесс анализа является достаточно ресурсоёмкой операцией и требует до двух часов вычислений и 32Гб ОЗУ на современном персональном компьютере для обработки одного кадра.



  1. Главная ссылка к новости (http://www.theguardian.com/tec...)
  2. OpenNews: Опубликован код для организации передачи данных между ноутбуками в ультразвуковом диапазоне
  3. OpenNews: Техника определения RSA-ключей через анализ изменения шума от компьютера
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/40349-voice
Ключевые слова: voice, video, ocr
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (57) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, A.Stahl (ok), 13:27, 08/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +29 +/
    Где можно заказать чугунные цветы вместо предательских живых?
     
     
  • 2.2, commiethebeastie (ok), 13:29, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Бычий пузырь вместо стекла не забудь натянуть.
     
     
  • 3.20, Аноним (-), 15:07, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Он еще хуже вибрировать будет.
     
     
  • 4.36, Pahanivo (ok), 19:18, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > Он еще хуже вибрировать будет.

    ХМ. Думаю данную технологию легко заглушить ультразвуком не сильно большой мощности ...

     
     
  • 5.42, Anonym0uz (?), 01:20, 09/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Всё ещё проще. Под глушилки на оконные стёкла — используют маленькие вибры, мобилки для этого подходят, особенно старые. А фонящие предметы при переговорах предусмотрительно убирают, закрывают тканью.
     
     
  • 6.46, Pahanivo (ok), 12:23, 09/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Я конечно не специалист по анализу гармонических колебаний, но если вчитаться то получается какая-то хрень ... Камера с частотой кадров 60fps, т.е. частота съема информации (частота дискретизации) 60 Hz, но у самых низких голосов (типа оперный бас) нижняя граница голосового диапазона порядка 80 Hz, а у среднего человека 100-200 Hz минимум. Как вообще можно что-то распознать, если частота дискретизации в два и более раз меньше чем частоты, которые пытаются анализировать????? Или я что-то путаю?
     
     
  • 7.49, Аноним (-), 15:53, 09/08/2014 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ну, если переводчики не переврали, то идея как-раз в том, что анализируется не в... большой текст свёрнут, показать
     
     
  • 8.57, Pahanivo (ok), 07:33, 11/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Ну это пожалуй хоть какое-то логическое объяснение , но все равно progressive... текст свёрнут, показать
     
  • 7.53, Аноним (-), 23:20, 10/08/2014 [^] [^^] [^^^] [ответить]  
  • –1 +/
    А там не надо весь спектр Достаточно амплитуду колебаний под действием типичных... большой текст свёрнут, показать
     
     
  • 8.58, Pahanivo (ok), 07:50, 11/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    вот я и спрашиваю, как имея частоту съема дискретизации В ДВА И БОЛЕЕ РАЗ МЕНЬ... текст свёрнут, показать
     
  • 2.3, Аноним (-), 13:30, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Пользуй кактусы, Люк. У них листьев.
     
     
  • 3.4, A.Stahl (ok), 13:34, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Трезвая мысль. Можно убить сразу двух зайцев если найти ещё и вкусные кактусы:)
     
     
  • 4.44, Led (ok), 02:53, 09/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > Трезвая мысль. Можно убить сразу двух зайцев если найти ещё и вкусные кактусы:)

    FAIL: "убитые зайцы" в кадре будут вибрировать не хуже фикуса.

     
  • 4.47, Центаврианин (?), 14:09, 09/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > Можно убить сразу двух зайцев если найти ещё и вкусные кактусы:)

    Трёх зайцев. Кактусы можно использовать ещё и для поглащения радиации и электромагнитного излучения.
    (у нас на работе парачка пользователей так защищают себя от радиации)

     
  • 3.6, Аноним (-), 13:36, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    хм, думал его убили, оказывается его кактусы захватили
     
     
  • 4.8, ASIC (ok), 13:44, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Прочитав коментарий ну просто настоение поднимаеся давно я така не смеялся ребята, особенно коментарий про "чугунные цветы" ну просто плакал. вот такой вот мотиватор. Спасибо.
     
     
  • 5.12, A.Stahl (ok), 14:05, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Приходи к нам на ЛОР -- гипервентиляция лёгких тебе обеспечена:)
     
     
  • 6.21, Аноним (-), 15:20, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Облизывать модераторов это так весело.
     
     
  • 7.27, A.Stahl (ok), 15:49, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Вот не надо сарказма. В любой бочке с мёдом есть ложка дёгтя. Вон на хабре ещё и друг друга облизывать надо...
     
     
  • 8.52, жестькаконаесть (?), 23:04, 10/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Ахтунг Хабрасеки ... текст свёрнут, показать
     
  • 8.54, Аноним (-), 23:23, 10/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Может лор и бочка, но уж точно не с медом Ресурс на домене 3-го уровня - понятн... текст свёрнут, показать
     
  • 3.22, Аноним (-), 15:21, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Параноики плакали, кололись, но продолжали есть невибрирующие кактусы.
     
  • 2.11, Andrey Mitrofanov (?), 13:56, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Где можно заказать чугунные цветы вместо предательских живых?

    Благодарные наследники в оградке вокруг холмика установят.

     
  • 2.19, YetAnotherOnanym (ok), 15:06, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Где можно заказать чугунные цветы вместо предательских живых?

    В Донецке из рельсов выращивают чюгуниевые деревья. Попробуй там заказать.

     
     
  • 3.28, A.Stahl (ok), 15:53, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    На брезентовом поле?
     
     
  • 4.34, YetAnotherOnanym (ok), 17:18, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ну, можно по нему огуречную плеть пустить. На чорном чюгунии - серебристо-белый люминь.
     
     
  • 5.38, Аноним (-), 21:14, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • –1 +/
    У нас тут место для передачи шифтовок ополчения чтоль?
     
     
  • 6.40, anonymous (??), 23:34, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > У нас тут место для передачи шифтовок ополчения чтоль?

    Цоя надо было слушать =)

     
  • 6.48, YetAnotherOnanym (ok), 15:38, 09/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Шифровка - это когда Бертрам Вустер шлёт Дэлии Трэверс телеграмму о невозможности возвращения серебряной коровы.
     
  • 2.32, Аноним (-), 17:02, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • –1 +/
    это не поможет. С помощью лазерного луча можно снимать звух со стекол. А видео заюзать для этого никогда не получится нормально, слишком низкая точность
     

  • 1.5, AndrewR (?), 13:34, 08/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Там в  первой  строчке ещё  и  Микрософт с  Адобе ..."Researchers at MIT, Microsoft, and Adobe have developed an algorithm  ... "
     
     
  • 2.7, Аноним (-), 13:43, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > Microsoft

    Как же без них-то ...

     
     
  • 3.29, Аноним (-), 16:06, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > Как же без них-то ...

    Ну так все правильно: проприерасы и лохи-подстилки из универов, которых проприерасы окучивают.

     
  • 2.23, cmp (ok), 15:29, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Массачусетского технологического института Microsoft

    3 раза перечитал, думал мс мит купил, поставьте запятую пожалуйста, глаза режет.

     
     
  • 3.30, Аноним (-), 16:07, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > 3 раза перечитал, думал мс мит купил, поставьте запятую пожалуйста, глаза режет.

    MS не купил, но пасется, рассматривая всяких MIT и Berkeley в качестве бесплатной кормовой базы. Достаточно посмотреть на пермиссивные лицензии одноименных универов.


     

  • 1.9, Аноним (9), 13:45, 08/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Мне сразу вспомнился фильм "На крючке". Там тоже искусственный интеллект распознавал речь по вибрации.
     
     
  • 2.10, Аноним (9), 13:48, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    На 1:23 http://kinogo.net/1082-na-kryuchke-2008.html
     
     
  • 3.13, Нанобот (ok), 14:24, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +2 +/
    не исключено, что они решили заняться этим исследованием как раз после просмотра фильма
     

  • 1.16, Rfhnbyrfrfhnbyrf (?), 14:43, 08/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Можно ли скачать алгоритм?
     
     
  • 2.17, Аноним (-), 15:01, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    После добровольного пожертвования голым и голодным разработчикам.
     

  • 1.18, Аноним (-), 15:02, 08/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    1 кадр / 2 часа = 60 кадров(1 сек)/120 часов ?
    1 минута - 300 дней. мда...
     
     
  • 2.25, анонимный (?), 15:38, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    300дней поделить на 2000 нод кластера - окажется что за 3/20 дня все будет готово...
     

  • 1.26, Аноним (-), 15:48, 08/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    Наши подбную технологию умудрились ещё в 30-е в посольство СШП внедрить...
     
     
  • 2.31, Аноним (-), 16:09, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Наши подбную технологию умудрились ещё в 30-е в посольство СШП внедрить...

    Там скорее всего было все проще, если вы про подслушивание по вибрации стекол.

     
  • 2.35, Demo (??), 17:46, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Наши подбную технологию умудрились ещё в 30-е в посольство  CШП

    "…В Дeнь нeзавиcимocти, 4 июля 1945 гoда, aмepиканcкий пoсол в Рoссии Авeрeлл Гaрриман пoлучил в пoдaрок от сoвeтcких пиoнeров деревянное панно с изображением орла. Панно повесили в рабочем кабинете посла. ... из дома напротив на окно кабинета направлялся невидимый луч, а мембрана, колебавшаяся в такт речи, отражала его назад, и он записывался на специальное устройство."

    Изобретатель с русской фамилией Лев Термен. :)

     
     
  • 3.45, fiziologus (?), 05:15, 09/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Вообще то лазером там не пахло (не было их ещё). Работало всё на том же принципе, что и терменвокс. Америкосы потом ещё долго гадали как это thingh их слушала.
     
     
  • 4.55, Аноним (-), 23:25, 10/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > Вообще то лазером там не пахло

    А где он про лазеры что-то сказал?

     

  • 1.37, Фома Неберущий. (?), 20:54, 08/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > но по мере усовершенствования техники разработчики смогли обеспечить разбор речи и
    > при съёмке обычной DSLR-камерой, выдающей 60 кадров в секунду.

    Какой-то пиндеж (от авторов или в переводе).  При частоте дискретизации в 60 герц ничего кроме бубнения вытащить невозможно. Ну и угадать пол и интонации еще может быть ...

     
     
  • 2.39, Ordu (ok), 22:17, 08/08/2014 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ну, во-первых, 60 кадров/сек -- это не частота дискретизации, поскольку разные пиксели в разные моменты времени засвечиваются. Во-вторых, на самом деле при 60 fps: "it may still be good enough to identify the gender of a speaker in a room; the number of speakers; and even, given accurate enough information about the acoustic properties of speakers’ voices, their identities." Впрочем исследование не сводилось к 60 fps, 60 fps, видимо, это тот минимум, на котором хоть какую-то информацию удаётся извлечь.
     

  • 1.41, Фома Неберущий. (?), 00:17, 09/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    >Ну, во-первых, 60 кадров/сек -- это не частота дискретизации, поскольку разные пиксели в разные моменты времени засвечиваются.

    Со светочувствительной матрицы они считываются тоже в разное время или как?
    >Впрочем исследование не сводилось к 60 fps, 60 fps, видимо, это тот минимум, на котором хоть какую-то информацию удаётся извлечь.

    Ну про "хоть какую-то" инфу я и не спорю.

     
     
  • 2.43, Ordu (ok), 01:31, 09/08/2014 [^] [^^] [^^^] [ответить]  
  • +2 +/
    >> Ну, во-первых, 60 кадров/сек -- это не частота дискретизации, поскольку разные пиксели
    >> в разные моменты времени засвечиваются.
    > Со светочувствительной матрицы они считываются тоже в разное время или как?

    Эмм... Если более подробно этот вопрос рассматривать, то следует признать, что матрица постоянно "засвечена", то есть на неё постоянно проецируется картинка. Но пиксели читаются не одновременно. Стандартный алгоритм, который использует прошивка -- сверху-вниз, слева-направо. И чем дальше пиксели друг от друга в этой последовательности, тем больше времени проходит между их фиксацией в кадре.

    Где-то в инете физики показывали разработку, которая позволяет камерой, снимающей 25 кадров в секунду, снимать реально 100 кадров в секунду, правда путём уменьшения разрешения в 2 раза по каждой оси. Там они меняли алгоритм и считывали с матрицы сначала нечётные пиксели нечётных строк, потом чётные пиксели нечётных строк, потом нечётные пиксели чётных строк, и финально чётные пиксели чётных строк. Если все эти прочитанные пиксели уложить в единый кадр, то получается видео как видео. А если из пикселей полученных на каждом проходе формировать отдельный кадр пониженного разрешения, то fps возрастает в четыре раза и это *действительно* позволяет разглядеть новые детали произошедшего. В демонстрационном видео, например, это позволяло понять что "вот эта размазанная полоса поперёк кадра, на самом-то деле пролетевшая пуля, причём пролетевшая слева-направо".

    Поэтому я не очень удивляюсь тому, что разглядывая разные пиксели и учитывая промежуток времени прошедший между их фиксацией в кадре, можно извлекать дополнительную информацию.

     

  • 1.50, arisu (ok), 20:31, 09/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    опять в открытые двери с грохотом вламываются…
     
  • 1.51, StainlessRat (??), 15:09, 10/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    1800 год. Группа исследователей разработала технику воссоздания написания письма по скрипу пера о бумагу :)

    Шутка конечно, но новость интересная :)
    Про лампочку с микрофоном читал давно, но это качественно новый уровень :)

     
     
  • 2.56, Anonizmus (?), 02:49, 11/08/2014 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >Про лампочку с микрофоном читал давно, но это качественно новый уровень :)

    Только когда ширпотребовские вебкамеры смогут выдавать 60 fps даже при хреновом освещении. Интересно кстати когда? В десять лет уложатся, или таки в пятилетку?.. Как раз и технологию доработают. "Как страшно жить" (c)

     
     
  • 3.59, Ordu (ok), 13:35, 11/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > Только когда ширпотребовские вебкамеры смогут выдавать 60 fps даже при хреновом освещении.

    Или когда технологии распознавания речи шагнут дальше, и опередят по своим возможностям способности человеческого уха. Не факт, конечно, что они справятся с 25 fps, но... Но если глянуть с той точки зрения, что на 25 fps возможно читать по губам, то есть ненулевая вероятность, что в вибрациях кактуса заснятых на 25 fps тоже достаточно информации.

     

  • 1.60, онаним (?), 21:42, 19/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >Про лампочку с микрофоном читал давно,

    Что-то не могу поиском ничего найти. Можно в двух словах, или ссылку?

     
     
  • 2.61, Александр (??), 13:48, 28/10/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Блин как же я люблю этот сериал http://serial-online.biz/serial_watch/361-smotret-online-hodyachie-mertvecy-5 про ходячих мертвецов. Смотрю каждую серию с великим удовольствием. Мое мнение, что это один из лучших сериалов за последние пять лет. Не знаю как Вам, но мне очень нравится и игра актеров и постановка. Жду Ваших комментов.


     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру