Google Books определил общее число наименований книг в мире

топ 100 блогов Блог SEO Философа Bormaley07.08.2010 Google Books определил общее число наименований книг в мире Как известно, проект Google Books — один из наиболее амбициозных проектов современности. Создать единую базу книг в электронном виде — серьезная задача, которая осложняется необходимостью договариваться с авторами, издательствами и прочими правообладателями. Данный проект интересен во многих смыслах — социальном, технологическом и логистическом. Влияние его на современное общество также имеет место быть, хотя на данный момент это влияние не такое сильное. Но речь не об этом. Дело в том, что создатели проекта постарались подсчитать каждую книгу в мире (имеется в виду не общее число книг, а общее число наименований книг). Понятно, что при таком подсчете погрешности неизбежны, но все же на Google можно надеяться. Так вот, получившееся число огромно — выходит 129864880 наименований.

К сожалению, методы подсчета книг, используемые специалистами, не особо афишируются. Известно только, что использовались различные каталоги, подавались запросы в университетские библиотеки, общественные библиотеки, частные коллекции, музеи и другие организации. Создание надежного алгоритма для отделения В«зерен от плевелВ» — сложная задача, но похоже, что Google справился ис этим. Конечно, нужно было продумать алгоритмы для сортировки, классификации и анализа количества книг — это сложная, комплексная система алгоритмов, о которой хотелось бы узнать побольше.

Вообще говоря, подсчет был произведен не из праздного любопытства, а для того, чтобы оценить реальные масштабы проделанной работы в рамках проекта, плюс оценить усилия, которые придется приложить для продолжения и (если это вообще возможно) завершения проекта.

При подсчетах количества книг корпорация чаще всего использовала в качестве источника информации разнообразные ISBN каталоги, которые существуют примерно с начала 60-х годов прошлого века. Интересно, что при анализе были найдены погрешности в наименованиях каталога — около полутора тысяч книг получили одинаковый идентификатор, о чем сотрудники Google уже известили библиотеки, в чьи каталоги закралась ошибка.

Интересно, что вначале у Google при подсчете получилась цифра, близкая к миллиарду. Однако после удаления всех копий и дубликатов, число книг сократилось до 600 миллионов. После проведения еще более тщательного анализа конечная цифра достигла значения 129864880. Интересно было бы узнать, сколько информации содержится в подобной массе книг, в количественном выражении. В общем и целом, интереснейшее исследование команды разработчиков Google, которое успешно окончилось. Кто там книголюб — можно уже начать собирать полную коллекцию в печатном варианте :-)

По материалам: HabraHabr

Оставить комментарий

Предыдущие записи блогера :
Архив записей в блогах:
...
Не знаю, чего так все ругают тикток? Отличная же идея, как по мне. Хотя сейчас поняла, кто каждому — свое. Лично я сижу в жж, на пикабу и на вумане. Из потребляемого контента — 90% это текст. Ну и остальные 10% сейчас это тикток. Инстаграм не прижился среди меня, видимо потому, что на ...
Ну, все уже читали новости, смотрели ролики, как на Украине встречали эвакуированных из китайской зоны пандемии? Слов нет. Знаете, иногда раздаются призывы: "Хватит расчеловечивать украинцев". Полностью согласен! С расчеловечиванием украинцев лучше всего справляются сами жители это ...
Итак, продолжим плыть в революцию Февраля 1917 года дальше... с либеральным журналом «Новый Сатирикон». :) Важная тема мартовских и апрельских номеров — арест царских министров. Как известно, сразу после ареста они препровождались в министерский павильон Государственной Думы, который ...
  Я буду счастливым, только когда стану успешным. Я буду счастливым, только когда у меня все будет хорошо. Я буду счастливым, только когда у меня все будет. Я буду счастливым, только когда решу все проблемы. Я буду счастливым, ...