Распознавание и анализ разговоров

топ 100 блогов _adept_05.07.2012 В продолжение вчерашней дискуссии.

Допустим, мы как-то распознаем разговоры и сохраняем получившийся текст. Я намерено не хочу сейчас касаться ни качества "аудио", которое придется распознавать, ни качества получающегося в результате текста. Пусть даже тут у нас все будет идеально.

Расскажите мне пожалуйста, что с этими текстами делать потом? (напомню, что мы говорим про Кровавый Режим, который надеется получить с этого какой-то профит).

Суммируя вчерашние аргументы, были названы такие цели:
1)использовать тексты для бинарной классификации (террорист - не террорист, протестующий - не протестующий)
2)использовать тексты для последующего полнотекстового поиска (с целью той же бинарной классификации, но без четких критериев)
3)складировать тексты про запас с тем, чтобы потом читать про тех, кто "попал на карандаш".

Мне кажется, что для всех трех целей запись и распознавание всех разговоров будут ужасно неэффективным средством. По пунктам:

Классификация
=============
Как учить такой классификатор? Откуда взять training set тех самых true positive целевых разговоров достаточного объема?

У классификатора будут ужасные precision и recall - что с этим делать? Поясню: классы будут сильно перекошены по размеру (1 террорист на пару миллионов обычных людей), соответственно, любые неточности классификации в сумме с false positives приведут к тому, что классификатор будет практически бесполезен. Допустим, мы с вероятностью в 30% не узнаем нужный единственный разговор из миллиона, зато с вероятностью 0.01% тыкаем пальцем в ненужный - посчитайте сами, что мы получим на выходе.

Кроме того, критерии классификации - не фиксированы (сегодня ищем "химию", завтра - "болотную"), соответственно, надо постоянно создавать и учить новые классификаторы. Это сложно и вычислительно и организационно (выбор хороших критериев).

Использовать же unsupervised методы, как мне кажесят, не получится из-за размерности простанства. Грубо говоря - у нас слишком много всех возможных слов и разговоров, чтобы какой-то unsupervised алгоритм это прошерстил. Да и на выходе мы получим слишком много классов, которые потом надо будет обработать вручную. Добавим к этому, что почти наверняка нужный "один разговор из миллиона" будет объединен в один класс с мешком других, и получаем на выходе один пшик.


Полнотекстовый поиск
====================

Учитывая, что целевая аудитория (гипотетические "террористы") шифруется, поиск надо будет вести по неуникальным, "бытовым" словам. Любой желающий может поиграть с гуглом и поскать "террористов" там, и увидеть, насколько это безнадежная затея.

Читать постфактум
=================

Казалось бы, какие тут могут быть возражения - бери и читай? Но для начала надо сгруппировать разговоры "по людям", то есть вместо "это разговор между номерами А и Б" получить "это разговор между Ивановым и Петровым", и потом уже читать все разговоры Иванова. При это _надо_ исходить из предположения, что владелец контракта и тот, кто реально говорит по телефону - это могут быть разные люди. Я верю, что подобная задача решается в условиях ограниченного количества людей и аудиозаписей, но для всех-всех-всех разговоров - нереально.

Итого
=====

Вагон затрат (особенно временных), минимальный (неотличимый от нуля) выхлоп. Если бы было социально приемлемо прослушивать всех подряд, из этого вышел бы хороший PR-проект (или, иначе, security theatre) - смотрите, мол, как у нас граница на замке. Ни одна мышь не проскочет - у нас этажи сервером и кубометры винчестеров, всех поймаем. Делать же это втайне, надеясь получить какой-то результат - глупо.

Discuss?

Оставить комментарий

Архив записей в блогах:
Моя жена умерла...Она долго, долго, бесконечно долго болела и страдала.У нее был рак.И вот она ушла. Тихо, под утро, под дождик.Ее звали Лена.Она очень хотела жить.Я не знаю, что будет дальше, я лишь постараюсь стать лучше.Прощай Ленка. Впереди новые ...
...В очередной - естественно, не в последний - раз иллюстрирующий, что сложившаяся система управления обществом комплектует свои верхние эшелоны причудливой смесью жуликов, психически больных особей, просто недоумков в диапазоне от простой конституциональной глупости * до олигофренов и ...
классический нищебродский псто: а посоветуйте, пожалуйста, какой-нибудь дешовый радар-детектор против всяких стрелок и прочего на М-2/4 иногда надо съездить за пряниками, но очень иногда, поэтому не вижу причин покупать дорогие агрегаты предыдущий агрет был сдан с боем обратно в pleer.ru ...
Китайская компания Xiaomi готовит к выпуску новый смартфон Mi 10 Pro. По результатам тестов аппарат станет самым мощным из всех существующих. По крайней мере так утверждает блог Digital Chat Station. По информации авторов блога результат тестов AnTuTu смартфона Mi 10 Pro составил ...
Грядет вереница памятных дат, 11 ноября 2018 года станут отмечать 100-летие окончания первой мировой войны.Его через пару дней начнут праздновать державы победительницы. А завтра будет 101 годовщина вооруженного переворота. Подарка, который устроил украинский еврей Троцкий, себе на День ...