Google Books определил общее число наименований книг в мире
Блог SEO Философа Bormaley — 07.08.2010
Как
известно, проект Google Books — один из наиболее амбициозных
проектов современности. Создать единую базу книг в электронном виде
— серьезная задача, которая осложняется необходимостью
договариваться с авторами, издательствами и прочими
правообладателями. Данный проект интересен во многих смыслах —
социальном, технологическом и логистическом. Влияние его на
современное общество также имеет место быть, хотя на данный момент
это влияние не такое сильное. Но речь не об этом. Дело в том, что
создатели проекта постарались подсчитать каждую книгу в мире
(имеется в виду не общее число книг, а общее число наименований
книг). Понятно, что при таком подсчете погрешности неизбежны, но
все же на Google можно надеяться. Так вот, получившееся число
огромно — выходит 129864880 наименований.К сожалению, методы подсчета книг, используемые специалистами, не особо афишируются. Известно только, что использовались различные каталоги, подавались запросы в университетские библиотеки, общественные библиотеки, частные коллекции, музеи и другие организации. Создание надежного алгоритма для отделения В«зерен от плевелВ» — сложная задача, но похоже, что Google справился ис этим. Конечно, нужно было продумать алгоритмы для сортировки, классификации и анализа количества книг — это сложная, комплексная система алгоритмов, о которой хотелось бы узнать побольше.
Вообще говоря, подсчет был произведен не из праздного
любопытства, а для того, чтобы оценить реальные масштабы
проделанной работы в рамках проекта, плюс оценить усилия, которые
придется приложить для продолжения и (если это вообще возможно)
завершения проекта.
При подсчетах количества книг корпорация чаще всего использовала в
качестве источника информации разнообразные ISBN каталоги, которые
существуют примерно с начала 60-х годов прошлого века. Интересно,
что при анализе были найдены погрешности в наименованиях каталога
— около полутора тысяч книг получили одинаковый идентификатор, о
чем сотрудники Google уже известили библиотеки, в чьи каталоги
закралась ошибка.
Интересно, что вначале у Google при подсчете получилась цифра,
близкая к миллиарду. Однако после удаления всех копий и дубликатов,
число книг сократилось до 600 миллионов. После проведения еще более
тщательного анализа конечная цифра достигла значения 129864880.
Интересно было бы узнать, сколько информации содержится в подобной
массе книг, в количественном выражении. В общем и целом,
интереснейшее исследование команды разработчиков Google, которое
успешно окончилось. Кто там книголюб — можно уже начать собирать
полную коллекцию в печатном варианте :-)
По материалам: HabraHabr
Проектор для дома: 7 критериев правильного выбора техники
Осенью должны падать листья, а не настроение. 30.10.2025
Субботние фото для души. Отражения
Лучшие фильмы о революции и гражданской войне...
Видео встречи принца и принцессы Уэльских с принцем Хусейном и принцессой
просто так
Спасение курицы пожарными
ПОСАДИЛИ ЛЕС
Пятничная болталка.

