Если учишь логике на материалах фантастики, то получишь вместо рассуждений

ailev — 21.06.2021 В стане учителей AI откровение: качество обучения, оказывается, зависит от качества использованного материала! Если учите на материалах с ошибками, то получите плохую модель. Если учите на материале без ошибок, то получите хорошую модель. И это при абсолютно одинаковом обучении, одинаковом алгоритме.

Вот распознавание изображений: в июне 2020 вдруг обнаружили, что ImageNet содержит огромное количество ошибок, и нужно отдельно разбираться, что там удалось распознавать нейросетями, если от этих ошибок избавиться -- https://arxiv.org/abs/2006.07159. И вот прошёл год, в ImageNet и впрямь обнаружилось 6% ошибок в валидационном наборе данных. О какой оценке результатов "обучения" тут может идти речь? Дальше оказалось, что безошибочных наборах данных хорошо учатся даже более простые модели. We algorithmically identify label errors in the test sets of 10 of the most commonly-used computer vision, natural language, and audio datasets, and subsequently study the potential for these label errors to affect benchmark results. Errors in test sets are numerous and widespread: we estimate an average of 3.4% errors across the 10 datasets, where for example 2916 label errors comprise 6% of the ImageNet validation set. Putative label errors are found using confident learning and then human-validated via crowdsourcing (54% of the algorithmically-flagged candidates are indeed erroneously labeled). Surprisingly, we find that lower capacity models may be practically more useful than higher capacity models in real-world datasets with high proportions of erroneously labeled data. For example, on ImageNet with corrected labels: ResNet-18 outperforms ResNet-50 if the prevalence of originally mislabeled test examples increases by just 6%. On CIFAR-10 with corrected labels: VGG-11 outperforms VGG-19 if the prevalence of originally mislabeled test examples increases by 5%. Traditionally, ML practitioners choose which model to deploy based on test accuracy -- our findings advise caution here, proposing that judging models over correctly labeled test sets may be more useful, especially for noisy real-world datasets. Это март 2021 года (спохватились!), https://arxiv.org/abs/2103.14749

А вот про тексты, которые используются для обучения языковых моделей: там тоже оказалось, что помоечный набор данных даёт помоечный результат. Так что пришлось чистить набор данных, делать clean corpus https://github.com/allenai/allennlp/discussions/5056 (тексты прогнаны через разные фильтры, один из них, например, удаляет мат), и затем аж через год после этого даже документировать этот набор данных -- https://arxiv.org/abs/2104.08758. Но вся эта "чистка" не устранила bias (типа "мусульмане как-то связаны с насилием", https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-algorithms-bias-gpt-3-racist-content -- и дальше весь разговор о том, что разные политические силы хотят убрать разный bias и в конечном итоге придётся убрать 100% текста, чтобы "понравиться всем", я писал про это в "Сжигать книги можно разными способами: привет от Рэя Бредбери из 1979", https://ailev.livejournal.com/1526762.html). А вот сколько фэнтези, городских легенд, рассуждений о вечных двигателях и прочей чуши попали в эти наборы текстов -- это вообще неведомо! Так что наши лучшие языковые модели отражают мозг обывателя, который воспитан словесниками и далёк от науки. Гуманитарный искусственный интеллект, зато который умеет ругаться матом: зеркало человеческой культуры, в которой расцветают сто цветов, из которых верить нельзя девяносто восьми. Современный AI верит в Деда Мороза, ибо его научили по текстам, в которых Дед Мороз представлен в самом выгодном свете!

Конечно, появились и работы, которые говорят "чем больше данных, тем лучше, нам и ошибочные данные тоже подойдут", типа https://arxiv.org/abs/2006.07159, с опорой на domain adaptation. Но непонятно, как говорить о domain adaptation в ситуации с Дедом Морозом, включая вариант Христа, указание на несуществование которого где-то может быть приравнено к уголовному преступлению! Опять же, чему учить деток? Версии правды, которую собираются нам дать словесники Минпросвещения? Вот тут обсуждение того, что делать в ситуации, когда всем учителям страны предписывается учить всех учеников страны под копирку: https://www.facebook.com/groups/blended.learning.russia/permalink/2937704743138722/. Хорошие слова, "единое образовательное пространство", вечно модные и в почёте у чиновников. Я там много комментирую в дискуссии (часть словесников страны это поддерживает, а часть возражает против такого подхода -- но для меня это борьба Чужого с Хищником, чума на оба их дома).

А чему не учат. Например, логике. Вот что оказалось в том же AI: a majority of the explanations, while appearing coherent on the surface, represent logically invalid arguments, ranging from being incomplete to containing clearly identifiable logical errors. This conclusion confirms that the inferential properties of explanations are still poorly formalised and understood, and that additional work on this line of research is necessary to improve the way Explanation Gold Standards are constructed. Это из работы, которая оценивает наборы данных для оценки алгоритмов, выдающих объяснения, https://arxiv.org/abs/2105.01974, "Do Natural Language Explanations Represent Valid Logical Arguments? Verifying Entailment in Explainable NLI Gold Standards"?

И вообще, про объяснения мало кто что понимает. И в школе не учат тому, что такое объяснение, какие они бывают, не учат современному пониманию науки как поставщику хороших (компактных, универсальных, контрфактических) объяснений. Например, отличие директивных объяснений от всяких других https://arxiv.org/abs/1706.07269, и вообще напомню про таких исследователей объяснений, как Tim Miller -- https://arxiv.org/search/cs?query=Miller%2C+Tim&searchtype=author&abstracts=show&order=-announced_date_first&size=50

А пока понимаем, что официальная система образования каким-то образом производит людей, активно выступающих против объяснений. Если ты хочешь, например, объяснить движение в танце, то обращаешься к лучшему известному человечеству способу объяснения -- физике, механика в объёме восьмого класса школы (закон сохранения импульса -- это в восьмом классе). Так вот взрослые гуманитарии будут стыдить тебя, если ты в объяснениях обратишься к физике! Вот тут развёрнутый пример (и посмотрите там комменты в разных тредах! Комменты давят на эмоции и образы, а не на логику. Содержание игнорируется, демонстрируется отношение. Ровно та проблема, которая описана в тексте): "Танцы для обезьян", https://vk.com/wall-179019873_1239. Так а что мы там считаем объяснением? Вот:
— танец происходит во внешних проявлениях как движения тела в виртуальной физике
— танец происходит во внутренних проявлениях как ощущения от движений сомы в реальной физике
— объяснения строятся на том, что причинами являются телесные работы сомы, а следствиями — движения тела. Объяснения — это про причины и следствия.

Итого:
-- если учите по плохой программе (скажем, описание бала Наташи из "Войны и Мира" вместо физики танцев), то не нужно удивляться плохим результатам обучения. И в AI, и в человечьих учебных программах оказывается, что учебные материалы отвратительны: с ошибками, содержат давно опровергнутые объяснения, имеют абсолютно нерациональные (и часто политически выбираемые) bias.
-- если не говорите, чем хорошее объяснение отличается от плохого, то в пункте выше не разобраться. Объяснение "потому что так угодно Аллаху/богу-духу/Зевсу/Деду Морозу" ничем в глазах не знающего человека не будет отличаться от объяснения по материалу учебника физики за восьмой класс, но оно проще, понятней, и поэтому будет использовано вместо объяснения из учебника физики. А объясняющий на основе физики ещё и будет сочтён выпендривающимся (тут приведена литературная форма высказывания! в жизни словесники выражаются менее литературно).
-- нигде разбираться в этом не учат. В AI подобные исследования только-только появляются, с людьми ситуация ещё хуже. При этом для людей ещё и learning transfer не проверяется: даже если учат физике, то эти знания до реальной жизни не доходят, а предъявлять их в быту вроде как "жуть!". Зато можно обсуждать Деда Мороза из любой выбранной конфессии, это ж "свобода совести", это можно.
-- статьи типа "ах, на мусорных данных алгоритмы работают совсем не так, как на специально почищенных" уже есть, но кто ж на них ориентируется? Немусорные-то данные взять негде! Всё то же самое верно и для учебных программ в школе и вузе. Немусорные программы где взять?! Где учат, например, понятию объяснений?

Так что засучиваем рукава, и работаем над своими учебными программами, над своими наборами данных сами. Никто не придёт, не поможет, а если и поможет -- то не факт, что содержание помощи понравится, вместо данных "2*2=5" в помощи тебе могут предложить данные "2*2=3". Так что дело спасения утопающих -- дело рук и мозгов самих утопающих. Смотрите, что вы едите. Смотрите, что вы кладёте в мозг себе. Смотрите, что вы кладёте в мозг другим (а они пусть смотрят, что кладёте им в мозг вы). Если у вас фантазийные учебные материалы, то рассуждения ваших учеников тоже будут фантазийны -- хоть эти ученики кремниевые, хоть вполне живые. И это не зависит от того, считаете вы ваши материалы сами фантазиями или же Истиной В Последней Инстанции. Результатом обучения является его результат, а не то, что вы планировали.

Ничего, прорвёмся.

UPDATE: обсуждение в чате блога, начиная с https://t.me/ailev_blog_discussion/8241, в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10221259726856765

Сохранено