На что это похоже?

топ 100 блогов vladimir10103.02.2010
На что это похоже?


Вчера я попросил вас проголосовать за похожую геометрическую фигуру. Большое всем спасибо! Мы с вами вместе внесли маленький вклад в решение одной из важнейших проблем 21 века — проблему поиска информации. Я бы поставил эту проблему в один ряд с проблемами медицины, энергетики и экологии. Почему?

Я как-то писал, что многие проблемы медицины вероятно уже решены, но мы не знаем об этом. Никто не в состоянии прочитать миллионы страниц научных публикаций в таких областях как хирургия, радиология, фармацевтика, биология, наука о клетках, генетика, химия, физика, математика, компьютерное моделирование, народная медицина, наука о мозге, психология, наука о питании и здоровом образе жизни...

Даже если найдется какой-нибудь скорочтей, то понять содержимое и сделать выводы ему будет невозможно. Так физики, изучающие теорию хаоса, не понимают физиков, изучающих теорию элементарных частиц. Иммунологи не до конца понимают хирургов, нейрофизиологи не знают математики и т. д.

Но давайте сегодня поговорим о поиске информации. Попробуйте ответить на вопрос: какой роман, «Война и мир» или «Мастер и Маргарита» больше похож на роман А. С. Пушкина «Евгений Онегин»?

Что за идиотский вопрос, спросите вы! Тебе что, Дараган, уже делать нечего стало? А на самом деле вопрос очень важный.

Вот мы с вами решали простейшую задачку в предыдущей записи. Что более похоже на белый квадрат — уменьшенный белый квадрат, раскрашенный квадрат или повернутый квадрат? К моему удивлению большинство читателей выбрало повернутый квадрат. Это сделали и мужчины и женщины с одинаковой вероятностью! Психологически я это понять могу — ведь если квадрат повернуть, то будет полное совпадение с исходным квадратом. Хотя мне казалось, что уменьшенный квадрат был больше похож.

Люди с математическим складом ума поругали меня на туманную постановку задачи. Дескать я не определил, что значит «похож». Дорогие мои читатели! Если бы я написал: «какая фигура подобна (т.е. пропорциональна) квадрату или какая фигура может быть совмещена с исходной путем поворота», то проблемы бы не было. Мне хотелось знать, что вкладывает большинство в понятие «похожести»

Представьте, что исходный квадрат — это роман «Евгений Онегин». Маленький квадрат — это сокращенный вариант романа, где сохранен язык Пушкина. Закрашенный квадрат — это новый роман с совершенно другим содержанием, но по размеру и стилю он похож на «Евгения Онегина».

Последний, повернутый квадрат — это можно представить, как искомый роман, с теми же героями, но переписанный в другом стиле. Например, в прозе.

Ну и зачем это надо? Разве нельзя толком объяснить людям в чем критерий похожести и не морочить никому голову?

А вот нельзя! Рассмотрим для простоты поиск романов или рассказов на сайте «проза.ру». Там их уже больше миллиона. Допустим вы хотите прочитать нечто, похожее на недавно прочитанное, но другого автора. Вы выбрали некий раздел (например, фантастику) и увидели, что нужно посмотреть десятки тысяч произведений и решить что вам больше подходит. Тогда вы просите компьютер (точнее поисковую машину) найти что-то похожее на то, что вы прочитали. И вам совсем не хочется отвечать на десятки вопросов поисковика, что именно вы имеете в виду под словом «похоже».

Мы говорим: «Ой, как малыш похож на маму!» Или на папу, или на бабушку. Глаза мамины, а нос папин! Так на кого он больше похож? Что важнее — нос или глаза?

Теперь представьте большую корпорацию. Миллионы страниц документации, писем, высказываний хранится на сервере. Вам нужно подобрать документы по заданной теме. Ключевые слова? Так ведь еще нужно объяснить, что под словом «мустанг» вы имели в виду марку автомобиля, а не животное! Да и в свалке документов после поиска по ключевым словам у вас тоже нет времени ковыряться! Но вот вы выудили что-то полезное и говорите компьютеру, что вам надо что-то «похожее»! И компьютер должен решить, что роман «Война и мир» меньше похож на выбранный вами документ, чем письмо Васи Пупкина из отдела Пети Занудкина.

Представьте, что вы работаете в банке с кредитными картами. Вы знаете, что ваши клиенты ведут себя по определенным правилам. Каждый тратит какую-то сумму в месяц, много мелких трат, иногда крупные, какой-то процент уходит на покупки через Интернет.
Но вот покупок на Интернете стало больше. Нарушается привычный ритм трат этого человека. Может это сезонное, связанное с Новым Годом или с 8-м Марта? Компьютер должен решить насколько новое поведение клиента «похоже» на его обычное поведение в данный сезон. Может надо бить тревогу и звонить клиенту , что его картой пользуются жулики?
Таких клиентов сотни тысяч и без автоматического слежения за изменением баланса на кредитных картах банк может понести большие потери, оплачивая покупки жуликов.

Вы проектируете безопасный умный автомобиль. Сначала испытатель гоняет бедную машину по скользким дорогам, по грязи и снегу, попадая в заносы и сваливаясь в кювет. Компьютер записывает что происходит с машиной при разных ситуациях и потом рассчитывает оптимальное торможение, повороты руля и т.п. Потом, в реальной критической ситуации компьютер должен решать «похожа» ли она на то, что было на испытаниях и можно ли применять те или иные меры безопасности. Нужно ли блокировать руль и подачу топлива, чтобы не было переворота машины? А может можно обойтись торможением переднего левого колеса?

Таких примеров можно привести сотни! Это поведение электрических сетей, заводские циклы, работа сети суперкомпьютеров, поиск научных статей, поиск видео материалов для ТВ передачи, поиск фото для статьи, работа над изобретением и так далее, и так далее. Это важно при проектировании новых лекарств, при изучении структур белков и из динамики. Понятие похожести — это то, над чем сейчас ломают головы сотни исследователей. Особенно при работе над текстами. Использование КОПИ-ПАСТИРОВАНИЯ привело к созданию миллиардов документов, в которых мы уже утонули. На примере блогов вы понимаете о чем я говорю.

Сейчас разработаны десятки компьютерных программ для анализа текстов. Некоторые из них стоят сотни тысяч долларов. Но если начинаешь применять такие программы для решения новых задач, для которых программы не были тестированы, то оказывается, что надо писать свою, которая должна решить именно эту задачу. И главная проблема для таких программ — это анализ "похожести". Каждый пользователь или заказчик под похожестью понимает что-то свое. Кого-то волнует сюжет, кого-то стиль, кого-то доля плагиата, а кого-то наличие картинок.

Весьма вероятно, что мне придется заняться этой проблемой. Вчера я написал простейшие функции-заготовки для новой программы по анализу текста. Пока это разбивка текста на предложения и слова, быстрый поиск, простейшее сравнение текстов, простейшая и не очень простейшая статистика, разнообразные корреляции и т. п. Я уже вооружен, но пока не очень опасен. Все это уже было сделано раньше, я просто повторил для коллекции. А вот как написать программу, которая скажет, что Александр Пушкин более гениальный поэт, чем Александр Пупкин, я пока не знаю. Но мне это уже надо.

Из голосования в предыдущей записи я понял, что различные цвета и размеры уменьшают восприятие «похожести» объектов. А вот повороты не так важны. Правилен ли мой вывод, что взгляд на объект под другим углом не мешает восприятию и «похожести»? И правильно ли, что описания одних и тех же событий разными стилями, будут казаться более похожими, чем описание разных событий в одном стиле, одним автором?

Пока я не знаю точные ответы на эти вопросы. Пока только догадки и предположения.

Оставить комментарий

Архив записей в блогах:
Самое абстрактное и непонятное, что для меня есть на свете - это бухгалтерия, компьютеры и религия. Причем мне кажется эти три слова достойны того, чтобы стоять рядом в одном предложении. Так вот, занесло меня тут в одну секту один маленький домик, где сосредоточились компьютеры и особа ...
С 1980-х годов мы знали, что некоторые белки ведут себя как патогены, если они не свернуты должным образом. Эти самовоспроизводящиеся молекулярные нарушители спокойствия, ...
Террорист Игорь Безлер назвал главаря боевиков "ДНР" Александра Захарченко вором, алкоголиком и барыгой-недоучкой. "После написанного ранее, считаю невозможным для себя носить погоны и награду республики, которой не присягал, погоны и награду, полученные из рук человека, окончательно п ...
Вчера ТНТ опять показал The Girl Next Door, и я застал в этот раз больший кусок фильма, чем прежде. Иберт написал возмущённый отзыв, дал фильму полторы звезды (даже на этот рейтинг "Соседку" вытянул лишь Тимоти Олифант), и в главном он прав – есть вещи, ...
Рисую черточки, кружочки... Это я не с ума сошла, это я решила, что мне нужно поучиться. Поучиться рисовать ) Да, я рисую, но делаю это так, как умею. Каждый раз приступая к работе, мне кажется, что это невероятно. Поэтому нашла несколько курсов и начала... Первое, с чего начинается ...