Мой комментарий к записи «***» от ivanov_petrov
snormer — 25.03.2023"Спрашивать результаты умножения у языковой модели будет
только душный исследователь."
Эээ... "душный" только вычеркнуть, просто исследователь. Спрашивать
простую арифметику (для больших чисел) у языковой модели это
неплохой способ оценить насколько хорошо она наловчилась
экстраполировать логику. Именно количественный показатель: процент
ошибки от величины чисел, форма графика, вот это всё. Можно
сравнивать модели между собой. Вот ссылка на статью, если есть сомнения.
"В интернете можно найти остроумную гипотезу, что в обучающие
данные попадают разного рода таблицы с колонками «Итого»,
суммирующими значения. Так трансформеры выучиваются складывать,
ничего не зная про арифметику."
О, вот и городские мифы пошли. Если бы всё так просто было. У
нейросетей есть один принципиальный минус: они могут "ухватить"
любую существующую закономерность, но для этого им нужно много раз
её показать в процессе обучения. Очень-очень много раз.
Эффективность обучения на порядки хуже, чем у биологического мозга.
А арифметика и логика из текста не выводятся, это отдельные
вещи.
Большие языковые модели учат счёту целенеправленно. Все они для
этого видят как минимум математический датасет DeepMind, который
содержит несколько гигабайтов всевозможных коротких математических
примеров с ответами вида "Посчитай 5654+19961. Ответ: 25615".
Миллионы таких примеров из всех разделов математики. Это только
обязательная база. Тот же ChatGPT по-моему отдельно ещё на простую
арифметику натаскивали, благо там примеры генерировать можно
бесконечно.
Но в результате трансформеры действительно
генерализуют/экстраполируют простую математику. Не как компьютер, а
как человек, считающий в уме: чем больше и "некрасивее" число, тем
вероятнее ошибка.