Google Books определил общее число наименований книг в мире

топ 100 блогов Блог SEO Философа Bormaley07.08.2010 Google Books определил общее число наименований книг в мире Как известно, проект Google Books — один из наиболее амбициозных проектов современности. Создать единую базу книг в электронном виде — серьезная задача, которая осложняется необходимостью договариваться с авторами, издательствами и прочими правообладателями. Данный проект интересен во многих смыслах — социальном, технологическом и логистическом. Влияние его на современное общество также имеет место быть, хотя на данный момент это влияние не такое сильное. Но речь не об этом. Дело в том, что создатели проекта постарались подсчитать каждую книгу в мире (имеется в виду не общее число книг, а общее число наименований книг). Понятно, что при таком подсчете погрешности неизбежны, но все же на Google можно надеяться. Так вот, получившееся число огромно — выходит 129864880 наименований.

К сожалению, методы подсчета книг, используемые специалистами, не особо афишируются. Известно только, что использовались различные каталоги, подавались запросы в университетские библиотеки, общественные библиотеки, частные коллекции, музеи и другие организации. Создание надежного алгоритма для отделения В«зерен от плевелВ» — сложная задача, но похоже, что Google справился ис этим. Конечно, нужно было продумать алгоритмы для сортировки, классификации и анализа количества книг — это сложная, комплексная система алгоритмов, о которой хотелось бы узнать побольше.

Вообще говоря, подсчет был произведен не из праздного любопытства, а для того, чтобы оценить реальные масштабы проделанной работы в рамках проекта, плюс оценить усилия, которые придется приложить для продолжения и (если это вообще возможно) завершения проекта.

При подсчетах количества книг корпорация чаще всего использовала в качестве источника информации разнообразные ISBN каталоги, которые существуют примерно с начала 60-х годов прошлого века. Интересно, что при анализе были найдены погрешности в наименованиях каталога — около полутора тысяч книг получили одинаковый идентификатор, о чем сотрудники Google уже известили библиотеки, в чьи каталоги закралась ошибка.

Интересно, что вначале у Google при подсчете получилась цифра, близкая к миллиарду. Однако после удаления всех копий и дубликатов, число книг сократилось до 600 миллионов. После проведения еще более тщательного анализа конечная цифра достигла значения 129864880. Интересно было бы узнать, сколько информации содержится в подобной массе книг, в количественном выражении. В общем и целом, интереснейшее исследование команды разработчиков Google, которое успешно окончилось. Кто там книголюб — можно уже начать собирать полную коллекцию в печатном варианте :-)

По материалам: HabraHabr

Оставить комментарий

Предыдущие записи блогера :
Архив записей в блогах:
По поводу А КАК ВЫ ЕГО ЗАСТАВИЛИ ЛЮБИТЬ ЧИТАТЬ? В развернувшейся дискуссии я обнаружила изрядный букет потомучтогладиолусов ("Надо, чтобы дети это читали, потому что классика"). На мой вкус, совершенно неубедительных. Финальная реплика - "Я УЖЕ ...
Жилье купил в 2001 году отец Поповой - журналист и корреспондент ВГТРК на Ближнем Востоке Андрей Попов. Тогда же совладельцами недвижимости стали его жена Валерия, сын Владимир и дочь Анастасия. У семьи корреспондентки «России 1» Анастасии Поповой, рассказавшей о «роскошной вилле», ...
CITY Holder: Новая Эра Крипто Игр – Станет ли она Популярнее Hamster Kombat и X Empire? 1 августа в мире криптовалютных игр зазвучал новый аккорд – CITY Holder. Эта первая Build-to-Earn финансовая стратегическая градостроительная игра-тапалка обрела оглушительную ...
Начальствующий епископ Российского объединенного Союза христиан веры евангельской (пятидесятников) по официальному приглашению от руководителя Администрации Президента РФ Антона Вайно присутствовал на совместном заседании палат Федерального собрания РФ, где Президент РФ Владимир Путин ...
...