о обратных ссылках и их контексте

топ 100 блогов p2004r06.07.2025

По сути вся сеть ссылок научных публикаций держится на прямых и обратных ссылках на конкретную статью. Прямые сслыки легко анализировать прямо по текту самой статьи которая их объявляет. Мы легко получаем контекст в котором упоминается в тексте статьи ссылка из ее библиографии. Но с обратными ссылками какой то детектив — CiteSeer (по моему исходно ?панасоник? или что то из Японии такое спонсировал) в 90е годы прекрасно собирал контекст цитирований всех ссылок на анализируемую статью... однако сейчас я не вижу ни одного сервиса который давал бы контекст цитирования для обратных ссылок на статью. Что случилось? Какие то судебные решения из 90х после войны фондов с CiteSeer ??


Вы затронули одну из самых болезненных и важных тем в современной наукометрии и академической среде. И ваше наблюдение абсолютно верно: произошел регресс в доступности контекста для обратных ссылок, и это не случайность.

Давайте разберемся, что случилось, кто виноват, и что делать.

Что было: Золотой век CiteSeerX и академического веба

Вы совершенно правы. CiteSeer (позже CiteSeerX), созданный в NEC Research Institute в Принстоне, был пионером. В конце 90-х и начале 2000-х он делал то, что сегодня кажется магией:

  1. Автономный краулинг: Он "ползал" по открытым академическим сайтам, персональным страницам профессоров, серверам препринтов (как arXiv) и скачивал PDF/PostScript файлы.
  2. Парсинг полного текста: Он "вскрывал" эти файлы и анализировал их содержимое.
  3. Извлечение цитат и контекста: Он находил в тексте упоминания других статей (например, "[Knuth, 1968]") и, что самое важное, сохранял окружающий текст — тот самый бесценный контекст цитирования.
  4. Создание графа цитирований: Он строил сеть, где можно было посмотреть не только, на кого ссылается статья А, но и кто ссылается на статью А, и главное — что именно они при этом говорят.

Это была революция. Можно было за минуту понять, хвалят вашу статью, критикуют, используют как базовый метод или просто упоминают в обзоре литературы.

Что случилось? Война издателей, а не фондов.

Никаких громких судебных решений против CiteSeer, о которых было бы известно, не было. Проблема гораздо глубже и системнее. Случился "идеальный шторм" из нескольких факторов:

1. "Великая стена" платного доступа (The Paywall)

  • Главный виновник — это модель бизнеса крупных академических издательств (Elsevier, Springer, Wiley и т.д.). В 90-е годы интернет был более "диким", и многие авторы просто выкладывали PDF своих статей на личных страницах. CiteSeer мог их свободно скачать.
  • В 2000-е издательства начали активно бороться с этим. Они заставили авторов передавать им эксклюзивные права на распространение. Статьи оказались за "пейволлами". Краулеры, подобные CiteSeer, больше не могли получить доступ к полным текстам легально. Они могут проиндексировать только метаданные (название, авторы, аннотация), но не сам текст.
  • Итог: Контекст цитирования оказался заперт в платных, проприетарных "хранилищах" издателей.

2. Техническая сложность и недостаток финансирования

  • CiteSeer был и остается академическим, некоммерческим проектом. Поддерживать сложную инфраструктуру для краулинга, парсинга миллионов PDF (формат которых постоянно меняется) и хранения огромных объемов данных — это очень дорого. Проект сильно зависел от грантов и энтузиазма исследователей.
  • Коммерческие гиганты, такие как Google Scholar, имеют несравнимо большие ресурсы, но их цели другие.

3. Смена бизнес-моделей у "конкурентов" (Google Scholar, Scopus, Web of Science)

  • Google Scholar: Его основная задача — индексация и поиск. Он показывает, кто ссылается на статью (список "Cited by"), но не показывает контекст. Почему?
    Легальные риски: Показ фрагментов текста из-за пейволла — это серая зона с точки зрения авторского права. Проще не рисковать.
    Техническая простота: Гораздо проще и дешевле парсить только список литературы, чем весь текст статьи.
    "Мирное соглашение" с издателями: Google Scholar направляет трафик на сайты издательств (где пользователь должен заплатить), тем самым не вступая с ними в прямую конфронтацию.
  • Scopus (Elsevier) и Web of Science (Clarivate): Эти сервисы принадлежат тем самым издательствам, которые владеют контентом. Казалось бы, они могли бы легко реализовать эту функцию. Но они этого не делают в полном объеме по коммерческим причинам:
    Зачем отдавать ценность бесплатно? Их модель — продавать подписку на доступ к базам данных и аналитике. Показ контекста — это дополнительная ценность, которую можно монетизировать отдельно или использовать для продажи более дорогих пакетов.
    Стимулирование "клика": Они хотят, чтобы вы кликнули на каждую ссылающуюся статью и открыли ее (и, возможно, заплатили за доступ), а не получили всю информацию на одной странице.

Есть ли свет в конце тоннеля? Поиски контекста сегодня.

Ситуация плачевная, но есть несколько обходных путей и проектов, которые пытаются вернуть то, что мы потеряли:

  1. Scite.ai
    Это, пожалуй, самый близкий современный аналог мечты. Он анализирует полные тексты (имея партнерства с некоторыми издателями и используя открытые источники) и классифицирует цитаты: "поддерживающая" (Supporting), "опровергающая" (Contrasting) или "упоминающая" (Mentioning). Он показывает тот самый фрагмент текста с цитатой. Это коммерческий сервис, но он делает именно то, что вы ищете.
  2. Connected Papers
    Этот сервис не показывает контекст цитирования, но он делает нечто другое: он строит визуальный граф похожих статей. Когда вы находите одну ключевую статью, он показывает вам ее "академическое окружение". Это помогает понять поле исследований, но не заменяет контекст.
  3. Semantic Scholar
    Проект от Allen Institute for AI. Он также пытается идти дальше простого списка ссылок. Иногда он может показать, является ли цитата фоновой или цитатой метода. Он активно развивается и является одним из самых многообещающих бесплатных инструментов.

Вывод:

Вы стали свидетелем трагической истории о том, как открытая академическая мечта, реализованная энтузиастами в CiteSeer, столкнулась с суровой реальностью коммерциализации научного знания. Проблема не в технологиях и не в судах, а в бизнес-моделях и авторском праве. Контекст цитирований — это "нефть" академического мира, и корпорации заперли его в своих платных скважинах.

Сервисы вроде Scite.ai — это луч надежды, но они, скорее всего, останутся платными, подтверждая ценность того, что когда-то было бесплатно.

Оставить комментарий

Популярные посты:
masterok">masterok
masterok Боевой вылет 204 дбап 05.07.1941
ilyavaliev">ilyavaliev
ilyavaliev
23 сентября 1919 года. Декрет СНК об обязательной регистрации бывших помещиков
Архив записей в блогах:
Я слышала что-то про "Фуггерай", но если бы не задание "Проходимцев" по городскому дизайну, не знаю, когда бы еще туда попала. Первый в мире "социальный проект", бесплатное жилье для бедняков, за симолическую плату - один рейнский гульден, что-то около 88 центов в год. До сих пор. Пишут, ...
Историк Дюков. "Вчера Шкурка уже уехал" (Крупская - Ульяновой-Елизаровой, 19 августа 1910). "Шкурке полезно на подножный корм перейти.. Будем мы пока что вдвоем со Шкуркой" (Крупская - М.И. Ульяновой, 10 апреля 1913). // Посмотрел как пылают комменты из-за прозвища "Шкурка". Даже ...
Обе стороны сделали еще по паре ходов к эндшпилю в логике взаимного цугцванга. Запад (в основном, конечно, США), являясь, очевидно, более сильным стратегическим игроком (по совокупным опыту, по военным и, главное, по экономическим, ресурсам), не заинтересован в усилении России, а равно ...
довольно унылое посещение Крымских достопримечательностей. Соня Орбелиани со мной согласна, сейчас блеванет от ...
Украина показала, что самоопределившуюся часть народа - не победить. Война, потеря трети экономики и двукратное обесценивание гривны - вот плата за урок. Если бы захватившие власть в Киеве не заявили первым делом о запрете русского языка и не отправили поезда и автобусы "дружбы" с нацистам ...