о обратных ссылках и их контексте

топ 100 блогов p2004r06.07.2025

По сути вся сеть ссылок научных публикаций держится на прямых и обратных ссылках на конкретную статью. Прямые сслыки легко анализировать прямо по текту самой статьи которая их объявляет. Мы легко получаем контекст в котором упоминается в тексте статьи ссылка из ее библиографии. Но с обратными ссылками какой то детектив — CiteSeer (по моему исходно ?панасоник? или что то из Японии такое спонсировал) в 90е годы прекрасно собирал контекст цитирований всех ссылок на анализируемую статью... однако сейчас я не вижу ни одного сервиса который давал бы контекст цитирования для обратных ссылок на статью. Что случилось? Какие то судебные решения из 90х после войны фондов с CiteSeer ??


Вы затронули одну из самых болезненных и важных тем в современной наукометрии и академической среде. И ваше наблюдение абсолютно верно: произошел регресс в доступности контекста для обратных ссылок, и это не случайность.

Давайте разберемся, что случилось, кто виноват, и что делать.

Что было: Золотой век CiteSeerX и академического веба

Вы совершенно правы. CiteSeer (позже CiteSeerX), созданный в NEC Research Institute в Принстоне, был пионером. В конце 90-х и начале 2000-х он делал то, что сегодня кажется магией:

  1. Автономный краулинг: Он "ползал" по открытым академическим сайтам, персональным страницам профессоров, серверам препринтов (как arXiv) и скачивал PDF/PostScript файлы.
  2. Парсинг полного текста: Он "вскрывал" эти файлы и анализировал их содержимое.
  3. Извлечение цитат и контекста: Он находил в тексте упоминания других статей (например, "[Knuth, 1968]") и, что самое важное, сохранял окружающий текст — тот самый бесценный контекст цитирования.
  4. Создание графа цитирований: Он строил сеть, где можно было посмотреть не только, на кого ссылается статья А, но и кто ссылается на статью А, и главное — что именно они при этом говорят.

Это была революция. Можно было за минуту понять, хвалят вашу статью, критикуют, используют как базовый метод или просто упоминают в обзоре литературы.

Что случилось? Война издателей, а не фондов.

Никаких громких судебных решений против CiteSeer, о которых было бы известно, не было. Проблема гораздо глубже и системнее. Случился "идеальный шторм" из нескольких факторов:

1. "Великая стена" платного доступа (The Paywall)

  • Главный виновник — это модель бизнеса крупных академических издательств (Elsevier, Springer, Wiley и т.д.). В 90-е годы интернет был более "диким", и многие авторы просто выкладывали PDF своих статей на личных страницах. CiteSeer мог их свободно скачать.
  • В 2000-е издательства начали активно бороться с этим. Они заставили авторов передавать им эксклюзивные права на распространение. Статьи оказались за "пейволлами". Краулеры, подобные CiteSeer, больше не могли получить доступ к полным текстам легально. Они могут проиндексировать только метаданные (название, авторы, аннотация), но не сам текст.
  • Итог: Контекст цитирования оказался заперт в платных, проприетарных "хранилищах" издателей.

2. Техническая сложность и недостаток финансирования

  • CiteSeer был и остается академическим, некоммерческим проектом. Поддерживать сложную инфраструктуру для краулинга, парсинга миллионов PDF (формат которых постоянно меняется) и хранения огромных объемов данных — это очень дорого. Проект сильно зависел от грантов и энтузиазма исследователей.
  • Коммерческие гиганты, такие как Google Scholar, имеют несравнимо большие ресурсы, но их цели другие.

3. Смена бизнес-моделей у "конкурентов" (Google Scholar, Scopus, Web of Science)

  • Google Scholar: Его основная задача — индексация и поиск. Он показывает, кто ссылается на статью (список "Cited by"), но не показывает контекст. Почему?
    Легальные риски: Показ фрагментов текста из-за пейволла — это серая зона с точки зрения авторского права. Проще не рисковать.
    Техническая простота: Гораздо проще и дешевле парсить только список литературы, чем весь текст статьи.
    "Мирное соглашение" с издателями: Google Scholar направляет трафик на сайты издательств (где пользователь должен заплатить), тем самым не вступая с ними в прямую конфронтацию.
  • Scopus (Elsevier) и Web of Science (Clarivate): Эти сервисы принадлежат тем самым издательствам, которые владеют контентом. Казалось бы, они могли бы легко реализовать эту функцию. Но они этого не делают в полном объеме по коммерческим причинам:
    Зачем отдавать ценность бесплатно? Их модель — продавать подписку на доступ к базам данных и аналитике. Показ контекста — это дополнительная ценность, которую можно монетизировать отдельно или использовать для продажи более дорогих пакетов.
    Стимулирование "клика": Они хотят, чтобы вы кликнули на каждую ссылающуюся статью и открыли ее (и, возможно, заплатили за доступ), а не получили всю информацию на одной странице.

Есть ли свет в конце тоннеля? Поиски контекста сегодня.

Ситуация плачевная, но есть несколько обходных путей и проектов, которые пытаются вернуть то, что мы потеряли:

  1. Scite.ai
    Это, пожалуй, самый близкий современный аналог мечты. Он анализирует полные тексты (имея партнерства с некоторыми издателями и используя открытые источники) и классифицирует цитаты: "поддерживающая" (Supporting), "опровергающая" (Contrasting) или "упоминающая" (Mentioning). Он показывает тот самый фрагмент текста с цитатой. Это коммерческий сервис, но он делает именно то, что вы ищете.
  2. Connected Papers
    Этот сервис не показывает контекст цитирования, но он делает нечто другое: он строит визуальный граф похожих статей. Когда вы находите одну ключевую статью, он показывает вам ее "академическое окружение". Это помогает понять поле исследований, но не заменяет контекст.
  3. Semantic Scholar
    Проект от Allen Institute for AI. Он также пытается идти дальше простого списка ссылок. Иногда он может показать, является ли цитата фоновой или цитатой метода. Он активно развивается и является одним из самых многообещающих бесплатных инструментов.

Вывод:

Вы стали свидетелем трагической истории о том, как открытая академическая мечта, реализованная энтузиастами в CiteSeer, столкнулась с суровой реальностью коммерциализации научного знания. Проблема не в технологиях и не в судах, а в бизнес-моделях и авторском праве. Контекст цитирований — это "нефть" академического мира, и корпорации заперли его в своих платных скважинах.

Сервисы вроде Scite.ai — это луч надежды, но они, скорее всего, останутся платными, подтверждая ценность того, что когда-то было бесплатно.

Оставить комментарий

Архив записей в блогах:
Трамвай моего детства — Аннушка. Я их прекрасно помню на Бульварном, сиденья там были дощатые, как в старых советских электричках Рижского вагонзавода, а с потолка свисали кожаные петли, чтоб за них ...
Вот же судьба, не дай Бог! Дмитрий Бобышев, поэт (его стихи  высоко оценивала  сама Ахматова), переводчик, профессор Иллинойского университета. И вообще, говорят, хороший парень! Между прочим, когда Бродского арестовали, ему приписывали некоторые стихи Бобышева. ...
Накануне Нового года все сдающие единые экзамены на уровнях B2 и C1 получили сообщения от Департамента образования и молодежи. Для некоторых это стало приятным подарком, но для подавляющего большинства известие оказалось разочаровывающим — результаты были отрицательными. Особенно ...
Армянская ССР, Талинский район, село Егник семья председателя колхоза. ...
Оригинал взят у kolybanov в Про эстраду Вопрос даже не в том, что покажут нам на Новый год. Бог с ним. Эстрада сейчас должна быть как в ВОВ (Утёсов, Русланова, Шульженко и...), а не сладкоголосые особи непонятного пола. И у нас таких сейчас гораздо больше чем было ...