Дэн Браун как зеркало Интернета
chto_chitat — 17.01.2010 Не знаю, будет ли интересен членам сообщества такой пост. Но хочу вот написать на узкую тему - как описывает компьютерные технологии популярный писатель Дэн Браун.Одной из первых книг Дэна Брауна была «Цифровая крепость». В центре там события с хитрым кодом, который пытался расшифровать некий суперкомпьютер. В итоге компьютер взорвался от перенапряжения, а вместе с ним и весь исследовательский центр.
Прочел я эту книгу лет через десять после ее написания. Все эти компьютеры в десять этажей выглядели достаточно архаично, но особо глаза не резали. Было понятно, что компьютерный триллер, написанный десять лет назад, не мог за это время не превратиться в ретрофантастику.
Но вот «Утраченный символ», новый роман, вышедший на языке оригинала несколько месяцев назад. Что же мы читаем в этой книге?
Крупная (в смысле заслуг) ученая приезжает в свой засекреченный научный центр в выходной день. Там она планирует совершить смелый научный эксперимент: поискать в Интернете нужные ей документы по ключевым словам. Самой ей такое, конечно, не под силу, но к счастью на работе сегодня дежурит ее помощница – «специалист по метасистемам». Она-то и поможет ей!
Я практически не утрирую. Смотрите:
«Тут Кэтрин на ум пришла новая мысль.
– Вообще-то хорошо, что вы здесь. Поможете мне в одном деле?
– Видно, это поважнее футбола.
Кэтрин сделала глубокий вдох.
– Не знаю, как это объяснить, но сегодня днем мне рассказали странную историю…
(…) – По мне, так это скорее вымысел, древняя легенда… – продолжала Кэтрин. – И все же (…). Мне интересно, не упоминается ли эта легенда где-нибудь в мировой истории.
– Во всей истории человечества?
Кэтрин кивнула:
– Да, в любой стране, на любом языке, в любое время.
«Странная просьба, – подумала Триш, – впрочем, выполнимая».
Просьба действительно странная. Почему бы самой Кэтрин не набрать эти слова в поисковике?.. Тем более, что, как метко замечает дальше Браун: «Десять лет назад это было невозможно, но сегодня благодаря Интернету и непрекращающейся оцифровке материалов крупнейших библиотек и музеев выполнить просьбу Кэтрин не составляло большого труда: хватило бы сравнительно простой поисковой системы, множества переводящих модулей и нескольких тщательно подобранных ключевых слов».
Но, если бы эта самая Триш попыталась просто погуглить по ключевым словам, она бы показала, что абсолютно зря получает в секретной лаборатории свои денежки. Поэтому на вопрос, сколько ей нужно времени на поиски, она отвечает:
« – Несколько минут на написание и запуск «паука». А потом минут пятнадцать на поиски.
– Всего-то? – удивилась Кэтрин».
Что же за паук такой?.. Как легко догадаться, речь идет о поисковом роботе, таком же, каких использует любая поисковая система. Порадуемся за Триш, которая создает поискового робота за несколько минут - обычно их пишут неделями коллективы из многих программистов. Так почему же не прибегнуть к помощи Гугла?..
А вот почему:
«Обычной поисковой машине потребовался бы целый день, чтобы прошерстить всю интернет-вселенную, найти новые документы, переварить и добавить в поисковую базу их содержание, но Триш решила написать совсем другого поискового «паука».
– Программа называется «Делегатор», – объяснила она Кэтрин. – Это не совсем законно, зато быстро. По сути, она приказывает другим поисковым машинам делать за нее всю работу. У большинства баз данных – библиотек, музеев, университетов, правительственных организаций – есть свои поисковики. Мой «паук» найдет их, введет ключевые фразы и попросит выполнить поиск. Таким образом, на нас будут работать тысячи поисковых машин одновременно.
Кэтрин восхищенно кивнула:
– Параллельная обработка данных».
О бесконечная наивность Кэтрин, позволяющая спокойно вешать ей лапшу на уши! «Обычной поисковой машине» возможно, и потребовался бы целый день для того, чтобы прошерстить всю Интернет-вселенную. Только на момент, когда мы обращаемся к поисковой машине, она и не думает это делать. Вся Вселенная уже исследована, все существующие в Интернете страницы уже собраны в памяти поисковой машины – естественно, не в виде html-файлов, а в виде своеобразных индексов. Именно по этой «внутренней копии Интернета», уже проиндексированной, и будет искать поисковик. Поэтому-то поиск и займет не день, а несколько секунд.
Чуть подробнее написал об этом у себя в жж.