Тест, в котором человек во много раз сильнее нейронок

Рейтинг MuSR (Multistep Soft Reasoning) - один из наиболее ярких, на которых нейронки пока страшно далеки от человека.

Задачи заключаются либо в загадках убийств, в вопросах размещения объектов, либо в оптимизации распределения команд. Чтобы решить эти проблемы, модели должны сочетать рассуждения и очень дальний анализ контекста. Немногие модели имеют более высокие показатели, чем случайная производительность.

"сложные примеры рассуждений, бросающие вызов GPT-4 (например, загадки убийств длиной примерно 1000 слов)... Во-вторых, экземпляры наших наборов данных представляют собой текстовые повествования, соответствующие реальным областям рассуждений; это одновременно делает его намного более сложным, чем другие синтетические тесты, оставаясь при этом реалистичными и удобными для решения человеком-аннотаторами с высокой точностью." цитата из описания теста

На картинке оценки приведены к шкале, где 0 - это случайное угадывание.
Источник - https://www.reddit.com/r/LocalLLaMA/comments/1dphen0/musr_is_one_of_the_few_benchmarks_where_human/

Приставка COT+ означает, что нейронку спрашивали, показывая пример решения и намекая на стратегию рассуждений.

Тут интересно две, нет три вещи

1. Похоже именно такие задачи мы ожидаем от взрослого специалиста в нормальной профессии, и у человека тут огромное преимущество по сравнению даже с лучшими нейронками

2. Разрывы между человеком и GPT4 - огромны, между GPT4 и Llama 70b, которая "выглядит почти как GPT4 по мнению любителей домашних нейронок" - еще больше! Локальным нейронкам на самом деле пока страшно далеко даже до GPT 3.5 (хотя прогресс в понимании и синтеза текстов на русском языке у них за последний год просто невероятен!)

3. на примере GPT 3.5 видно, что чем слабее модель, тем хуже она понимает даже примеры рассуждений

Означает ли это, что гении с примером рассуждений могут перевернуть Землю, а дурак только лоб расшибет даже о точную пошаговую инструкцию?

Означает ли это, что студентов можно и нужно тащить на экзамене, так как именно в таком процессе становится наиболее яркой разница между хоть как-то способным, и абсолютно негодным рассуждатором?

Предыдущие записи блогера :

28.06.2024 — Disco Катарсис

27.06.2024 — Убегающая в будущее лента постов

27.06.2024 — Еще один шажок к стене

25.06.2024 — Первые свисточки апокалипсиса

25.06.2024 — Конец золотого века доставки

25.06.2024 — Эра древней доставки на дом

24.06.2024 — Настольные игры опережают в развитиии компьютерные

23.06.2024 — Срач на кухне Маккартни

22.06.2024 — Бедные домохозяйки

21.06.2024 — Disco Elisium - тема текстов

Архив записей в блогах:

О пользе капусты...)

Если ты капусту ешь Лик всегда твой будет свеж! ...

Рыбный день )

"Звонок в дверь квартиры. Жена идет открывать, а там муж, с рыбалки приехал. Жена ожидала, что он как обычно подшофе вернулся. А муж приехал, трезвый, как стеклышко. И у него полный рюкзак рыбы . Жена в шоке: – Оооо-го! Вот это улов! Муж ей в ответ, очень расстроено: - Кум, падла, ...

Про терпение. Часть 1

ПРО ТЕРПЕНИЕ / ЧАСТЬ 1 Перед вами первая часть моей лекции про такую христианскую добродетель как терпение. Начал с этимологии этого понятия, которое раскрывает глубинную суть явления. Ну, и конечно, материал насыщен комментариями святых отцов, которые на личном опыте познали природу и ...

Налейте в бокал ...

... немножко ...

Новое интервью Томаса Маркла.

Томаса Маркла как прорвало: видимо, теперь с судом в перспективе, он уже не пытается быть хорошим отцом в глазах СМИ. Томас Маркл дал интервью каналу Channel5 News: "Это один из величайших долгоживущих институтов всех времён (про британскую монархию). Они разрушают его, удешевляют ...

Тест, в котором человек во много раз сильнее нейронок

Тест, в котором человек во много раз сильнее нейронок

Оставить комментарий

Популярные посты: