Тест, в котором человек во много раз сильнее нейронок

топ 100 блогов kvisaz28.06.2024

Рейтинг MuSR (Multistep Soft Reasoning) - один из наиболее ярких, на которых нейронки пока страшно далеки от человека.

Задачи заключаются либо в загадках убийств, в вопросах размещения объектов, либо в оптимизации распределения команд. Чтобы решить эти проблемы, модели должны сочетать рассуждения и очень дальний анализ контекста. Немногие модели имеют более высокие показатели, чем случайная производительность.

"сложные примеры рассуждений, бросающие вызов GPT-4 (например, загадки убийств длиной примерно 1000 слов)... Во-вторых, экземпляры наших наборов данных представляют собой текстовые повествования, соответствующие реальным областям рассуждений; это одновременно делает его намного более сложным, чем другие синтетические тесты, оставаясь при этом реалистичными и удобными для решения человеком-аннотаторами с высокой точностью." цитата из описания теста

На картинке оценки приведены к шкале, где 0 - это случайное угадывание.
Источник - https://www.reddit.com/r/LocalLLaMA/comments/1dphen0/musr_is_one_of_the_few_benchmarks_where_human/

Приставка COT+ означает, что нейронку спрашивали, показывая пример решения и намекая на стратегию рассуждений.

Тут интересно две, нет три вещи

1. Похоже именно такие задачи мы ожидаем от взрослого специалиста в нормальной профессии, и у человека тут огромное преимущество по сравнению даже с лучшими нейронками

2. Разрывы между человеком и GPT4 - огромны, между GPT4 и Llama 70b, которая "выглядит почти как GPT4 по мнению любителей домашних нейронок" - еще больше! Локальным нейронкам на самом деле пока страшно далеко даже до GPT 3.5 (хотя прогресс в понимании и синтеза текстов на русском языке у них за последний год просто невероятен!)


3. на примере GPT 3.5 видно, что чем слабее модель, тем хуже она понимает даже примеры рассуждений

Означает ли это, что гении с примером рассуждений могут перевернуть Землю, а дурак только лоб расшибет даже о точную пошаговую инструкцию?

Означает ли это, что студентов можно и нужно тащить на экзамене, так как именно в таком процессе становится наиболее яркой разница между хоть как-то способным, и абсолютно негодным рассуждатором?

Тест, в котором человек во много раз сильнее нейронок




Ссылки
- картинка отсюда -https://www.reddit.com/r/LocalLLaMA/comments/1dphen0/musr_is_one_of_the_few_benchmarks_where_human/
- описание разных методологий тестирования - https://huggingface.co/spaces/open-llm-leaderboard/blog
- статья про MUSR - https://arxiv.org/abs/2310.16049

Оставить комментарий

Популярные посты:
Архив записей в блогах:
Если ты капусту ешь Лик всегда твой будет свеж! ...
"Звонок в дверь квартиры. Жена идет открывать, а там муж, с рыбалки приехал. Жена ожидала, что он как обычно подшофе вернулся. А муж приехал, трезвый, как стеклышко. И у него полный рюкзак рыбы . Жена в шоке: – Оооо-го! Вот это улов! Муж ей в ответ, очень расстроено: - Кум, падла, ...
ПРО ТЕРПЕНИЕ / ЧАСТЬ 1 Перед вами первая часть моей лекции про такую христианскую добродетель как терпение. Начал с этимологии этого понятия, которое раскрывает глубинную суть явления. Ну, и конечно, материал насыщен комментариями святых отцов, которые на личном опыте познали природу и ...
... немножко ...
Томаса Маркла как прорвало: видимо, теперь с судом в перспективе, он уже не пытается быть хорошим отцом в глазах СМИ. Томас Маркл дал интервью каналу Channel5 News: "Это один из величайших долгоживущих институтов всех времён (про британскую монархию). Они разрушают его, удешевляют ...