Продолжение столкновения менталитетов

топ 100 блогов pargentum16.10.2010 Или технико-экономическое обоснование проекта по оцифровке и выкладыванию в Интернет всех советских архивов в течении года (Собрано из комментов к http://a-bugaev.livejournal.com/834263.html):

Ну, давайте прикинем. Возьмем Государственный Архив Российской Федерации. Согласно выложенному на их сайте буклету, они хранят около 6 с копейками миллионов дел. Средняя емкость дела не указана, давайте примем ее 100 листов. Современные enterprise-class МФУ хавают приблизительно один лист в секунду, т.е. время сканирования одним устройством можно оценить в 600 миллионов секунд, то есть примерно 19 сканеро-лет. Купив 19 таких МФУ, стоимость которых составляет около 100 тыр/штука, работу над Государственным Архивом можно завершить за год. Конечно, я не учел ветхие документы, с которыми возни будет значительно больше, но неужели их доля так велика и неужели значительная их часть уже не переснята на микрофильмы?

Если средняя емкость дела больше 100 листов, ну давайте купим не 19 МФУ, а 38. Или даже 190. Все-таки для такого дела... Так или иначе, очевидно, что с чисто технической точки зрения сроки более чем обозримые. Да, в 1991 году такой техники еще не было, но сейчас-то она есть.

Разумеется, речь идет о том, чтобы тупо все сосканировать и тупо все выложить. Т.е. смысл именно в том, что никакого просмотра документов и раздумий о том, стоит ли данный конкретный документ выкладывать, быть не должно.

>
Кроме ГАРФ нужно учесть и другие центральные архивы (см. http://www.rusarchives.ru/federal/list.shtml), плюс региональные архивы. Выйдет увеличение количества как минимум на порядок.
>
Важна скорость работы людей, причем не нанятых таджиков, а людей квалифицированных. Сомневаюсь, что можно приблизиться к величинам в 1 лист/сек., думаю, там будет на порядок больше.

Если вы не заметили, я специально подчеркнул, что речь именно о том, чтобы вывалить в сеть неструктурированный массив. Точнее, массив, структурированный в точном соответствии с тем, как оно структурировано в архиве сейчас. Полка номер 20, документы ВЦСПС июнь 1976-май 1977 года, дело номер 2128506 "о помощи трудящимся чили" - херак, дело номер 2128507 "о взносах в фонд мира" - херак, дело 2128508 "о драке при распределении путевок на сухозадрищенском заводе резиновых изделий" - херак и т.д. до конца полки. Мы научили мир копировать - херакс, херакс, херакс.

Cканирование должно быть организованно именно так: сложить папки с полки на тележку, привезти к сканеру, сложить содержимое папки в приемный лоток, нажать кнопку, сложить содержимое выходного лотка обратно в папку. Когда папки в тележке кончатся, должна подъехать тележка с папками со следующей полки. Т.е. на сканер нужно три студента и две тележки - один складывает папки в тележку, один возит тележки, один стоит у сканера - и один сотрудник архива, который следит, чтобы студенты не перепутали папки. Ну, реально, студентов должно быть больше, чтобы они могли работать круглые сутки.

Разумеется, результат будет больше похож на сайт bitsavers.org, чем на, скажем, упомянутые Лабазом немецкие архивы. Но сайтом bitsavers.org вполне можно пользоваться (для некоторых целей). Следующим шагом будет грубый OCR и построение грубого полнотекстового индекса. Потом можно сажать квалифицированных специалистов заниматься вычиткой OCR - как я понимаю, именно на это и уходит основное время при оцифровке немецких или американских архивов. Разумеется, построение сайта с выверенным OCR всех документов займет многие годы, но уже первая версия сайта будет иметь большой эффект и снимет значительную часть нагрузки с оригинального хранилища.


Вся
требуемая квалификация состоит именно в том, чтобы не пропустить ни одной папки на полке, не перепутать листы при складывании обратно в папку и не переставить папки при их возврате на полку. Таджиков для такой работы, наверное, было бы нанимать неприлично, но студентам и действующему персоналу архива такая работа была бы, наверное, вполне по силам.

Для выборочной публикации, конечно, нужны квалифицированные специалисты. Но, еще раз повторюсь, главный смысл именно в том, чтобы публикация была невыборочной и нередактированной - это обеспечивает и низкую стоимость, и короткие сроки, и высокий уровень доверия к опубликованным документам.


Деньги - давайте тоже посчитаем:

1. 300 (ну хорошо, 500) МФУ ценой сто тыр/шт. = 50 млн. руб. Я думаю, с оптовой скидкой можно купить сканеры и подешевле. Возможно также, есть скоростные сканеры без МФУ, они будут еще дешевле. Видимо, после такой работы, устройство подачи бумаги в этом сканере будет на выброс, так что остаточной стоимостью сканеров можно пренебречь.
2. Я выше Бугаеву приводил оценку, что на каждый сканер нужно три неквалифицированных человека (складывать папки с полки на тележку, возить тележку и совать содержимое папок в сканер). Чтобы они работали круглые сутки, надо сделать три смены. Итого, 4500 низкоквалифицированных работников в течении года. Положим им зарплату 10 000 в месяц, итого 540 млн. руб.
3. Сервера, на которые это все будет выложено. На фоне предыдущих пунктов это вообще копейки. В 10 миллионов рублей запросто уложимся.

Итого, 600 миллионов рублей, без учета поддержки серверов. Разумеется, я считал "чистый" бюджет, без учета налогов и откатов. Проблема этого проекта не в том, что он очень масштабный, а как раз наоборот, в том, что он очень малобюджетный.


Вопрос залу - где я неправ?

Оставить комментарий

Архив записей в блогах:
У меня Живой журнал занимает практически все свободное время и порой задумываюсь, как это люди успевают вести несколько блогов на разных ресурсах? И вот недавно, как раз под мое настроение, в посте у valse_boston разговорились насчет последних ...
Прежде чем продолжить прошлую тему о киборгах - будущей темой о биокиборгах, хочется обсудить наиболее яркое применение оных: колонизация ближайшего космоса. Формат обсуждения - как обычно, свободный, и для стартового разогрева обсуждения предлагаются два кино. 1. Луна будущего. Фильм ...
Добрый вечер! Не секрет, что рано или поздно (есть надежда, что уже в ближайшие пару патчей) напильник настигнет джве мегаимбы мидлевела - Квоса и Хилкота. Как обычно, после таких потрясений имбодрочеры быстренько скребут по сусекам и находят очередную нагибалку (или же её вводит услужлив ...
Луна сегодня в Козероге - самое время поговорить о диетах! :) Ох какую шикарную диету встретила я однажды в журнале... Можно сказать, мой мир почти перевернулся, а я думала, что меня уже ничем не удивить. Называется эта диета «Мало углеводов и много жиров» (Less Carb Low Fat) Можно есть ж ...
  Сергей Есенин . Я последний поэт деревни, Скромен в песнях дощатый мост. За прощальной стою обедней Кадящих листвой берез. Догорит золотистым пламенем Из телесного воска свеча, И луны часы деревянные Прохрипят мой ...