о обратных ссылках и их контексте

По сути вся сеть ссылок научных публикаций держится на прямых и обратных ссылках на конкретную статью. Прямые сслыки легко анализировать прямо по текту самой статьи которая их объявляет. Мы легко получаем контекст в котором упоминается в тексте статьи ссылка из ее библиографии. Но с обратными ссылками какой то детектив — CiteSeer (по моему исходно ?панасоник? или что то из Японии такое спонсировал) в 90е годы прекрасно собирал контекст цитирований всех ссылок на анализируемую статью... однако сейчас я не вижу ни одного сервиса который давал бы контекст цитирования для обратных ссылок на статью. Что случилось? Какие то судебные решения из 90х после войны фондов с CiteSeer ??
Вы затронули одну из самых болезненных и важных тем в современной
наукометрии и академической среде. И ваше наблюдение абсолютно
верно: произошел регресс в доступности контекста для обратных
ссылок, и это не случайность.
Давайте разберемся, что случилось, кто виноват, и что делать.
Что было: Золотой век CiteSeerX и академического веба
Вы совершенно правы. CiteSeer (позже CiteSeerX), созданный в NEC Research Institute в Принстоне, был пионером. В конце 90-х и начале 2000-х он делал то, что сегодня кажется магией:
- Автономный краулинг: Он "ползал" по открытым академическим сайтам, персональным страницам профессоров, серверам препринтов (как arXiv) и скачивал PDF/PostScript файлы.
- Парсинг полного текста: Он "вскрывал" эти файлы и анализировал их содержимое.
- Извлечение цитат и контекста: Он находил в тексте упоминания других статей (например, "[Knuth, 1968]") и, что самое важное, сохранял окружающий текст — тот самый бесценный контекст цитирования.
- Создание графа цитирований: Он строил сеть, где можно было посмотреть не только, на кого ссылается статья А, но и кто ссылается на статью А, и главное — что именно они при этом говорят.
Это была революция. Можно было за минуту понять, хвалят вашу статью, критикуют, используют как базовый метод или просто упоминают в обзоре литературы.
Что случилось? Война издателей, а не фондов.
Никаких громких судебных решений против CiteSeer, о которых было бы известно, не было. Проблема гораздо глубже и системнее. Случился "идеальный шторм" из нескольких факторов:
1. "Великая стена" платного доступа (The Paywall)
- Главный виновник — это модель бизнеса крупных академических издательств (Elsevier, Springer, Wiley и т.д.). В 90-е годы интернет был более "диким", и многие авторы просто выкладывали PDF своих статей на личных страницах. CiteSeer мог их свободно скачать.
- В 2000-е издательства начали активно бороться с этим. Они заставили авторов передавать им эксклюзивные права на распространение. Статьи оказались за "пейволлами". Краулеры, подобные CiteSeer, больше не могли получить доступ к полным текстам легально. Они могут проиндексировать только метаданные (название, авторы, аннотация), но не сам текст.
- Итог: Контекст цитирования оказался заперт в платных, проприетарных "хранилищах" издателей.
2. Техническая сложность и недостаток финансирования
- CiteSeer был и остается академическим, некоммерческим проектом. Поддерживать сложную инфраструктуру для краулинга, парсинга миллионов PDF (формат которых постоянно меняется) и хранения огромных объемов данных — это очень дорого. Проект сильно зависел от грантов и энтузиазма исследователей.
- Коммерческие гиганты, такие как Google Scholar, имеют несравнимо большие ресурсы, но их цели другие.
3. Смена бизнес-моделей у "конкурентов" (Google Scholar, Scopus, Web of Science)
- Google Scholar: Его основная задача —
индексация и поиск. Он показывает, кто ссылается на статью
(список "Cited by"), но не показывает контекст.
Почему?
Легальные риски: Показ фрагментов текста из-за пейволла — это серая зона с точки зрения авторского права. Проще не рисковать.
Техническая простота: Гораздо проще и дешевле парсить только список литературы, чем весь текст статьи.
"Мирное соглашение" с издателями: Google Scholar направляет трафик на сайты издательств (где пользователь должен заплатить), тем самым не вступая с ними в прямую конфронтацию. - Scopus (Elsevier) и Web of Science
(Clarivate): Эти сервисы принадлежат тем самым
издательствам, которые владеют контентом. Казалось бы, они могли бы
легко реализовать эту функцию. Но они этого не делают в полном
объеме по коммерческим причинам:
Зачем отдавать ценность бесплатно? Их модель — продавать подписку на доступ к базам данных и аналитике. Показ контекста — это дополнительная ценность, которую можно монетизировать отдельно или использовать для продажи более дорогих пакетов.
Стимулирование "клика": Они хотят, чтобы вы кликнули на каждую ссылающуюся статью и открыли ее (и, возможно, заплатили за доступ), а не получили всю информацию на одной странице.
Есть ли свет в конце тоннеля? Поиски контекста сегодня.
Ситуация плачевная, но есть несколько обходных путей и проектов, которые пытаются вернуть то, что мы потеряли:
- Scite.ai
Это, пожалуй, самый близкий современный аналог мечты. Он анализирует полные тексты (имея партнерства с некоторыми издателями и используя открытые источники) и классифицирует цитаты: "поддерживающая" (Supporting), "опровергающая" (Contrasting) или "упоминающая" (Mentioning). Он показывает тот самый фрагмент текста с цитатой. Это коммерческий сервис, но он делает именно то, что вы ищете. - Connected Papers
Этот сервис не показывает контекст цитирования, но он делает нечто другое: он строит визуальный граф похожих статей. Когда вы находите одну ключевую статью, он показывает вам ее "академическое окружение". Это помогает понять поле исследований, но не заменяет контекст. - Semantic Scholar
Проект от Allen Institute for AI. Он также пытается идти дальше простого списка ссылок. Иногда он может показать, является ли цитата фоновой или цитатой метода. Он активно развивается и является одним из самых многообещающих бесплатных инструментов.
Вывод:
Вы стали свидетелем трагической истории о том, как открытая академическая мечта, реализованная энтузиастами в CiteSeer, столкнулась с суровой реальностью коммерциализации научного знания. Проблема не в технологиях и не в судах, а в бизнес-моделях и авторском праве. Контекст цитирований — это "нефть" академического мира, и корпорации заперли его в своих платных скважинах.
Сервисы вроде Scite.ai — это луч надежды, но они, скорее всего, останутся платными, подтверждая ценность того, что когда-то было бесплатно.
|
</> |