Тест, в котором человек во много раз сильнее нейронок
kvisaz — 28.06.2024
Рейтинг MuSR (Multistep Soft Reasoning) - один из наиболее ярких, на которых нейронки пока страшно далеки от человека.
Задачи заключаются либо в загадках убийств, в вопросах
размещения объектов, либо в оптимизации распределения команд. Чтобы
решить эти проблемы, модели должны сочетать рассуждения и очень
дальний анализ контекста. Немногие модели имеют более высокие
показатели, чем случайная производительность.
"сложные примеры рассуждений, бросающие вызов GPT-4
(например, загадки убийств длиной примерно 1000 слов)...
Во-вторых, экземпляры наших наборов данных представляют собой
текстовые повествования, соответствующие реальным областям
рассуждений; это одновременно делает его намного более сложным, чем
другие синтетические тесты, оставаясь при этом реалистичными и
удобными для решения человеком-аннотаторами с высокой точностью."
цитата из описания теста
На картинке оценки приведены к шкале, где 0 - это случайное
угадывание.
Источник - https://www.reddit.com/r/LocalLLaMA/comments/1dphen0/musr_is_one_of_the_few_benchmarks_where_human/
Приставка COT+ означает, что нейронку спрашивали, показывая пример решения и намекая на стратегию рассуждений.
Тут интересно две, нет три вещи
1. Похоже именно такие задачи мы ожидаем от взрослого специалиста в нормальной профессии, и у человека тут огромное преимущество по сравнению даже с лучшими нейронками
2. Разрывы между человеком и GPT4 - огромны, между GPT4 и Llama 70b, которая "выглядит почти как GPT4 по мнению любителей домашних нейронок" - еще больше! Локальным нейронкам на самом деле пока страшно далеко даже до GPT 3.5 (хотя прогресс в понимании и синтеза текстов на русском языке у них за последний год просто невероятен!)
3. на примере GPT 3.5 видно, что чем слабее модель, тем хуже она
понимает даже примеры рассуждений
Означает ли это, что гении с примером рассуждений могут перевернуть
Землю, а дурак только лоб расшибет даже о точную пошаговую
инструкцию?
Означает ли это, что студентов можно и нужно тащить на экзамене, так как именно в таком процессе становится наиболее яркой разница между хоть как-то способным, и абсолютно негодным рассуждатором?

Ссылки
- картинка отсюда -https://www.reddit.com/r/LocalLLaMA/comments/1dphen0/musr_is_one_of_the_few_benchmarks_where_human/
- описание разных методологий тестирования - https://huggingface.co/spaces/open-llm-leaderboard/blog
- статья про MUSR - https://arxiv.org/abs/2310.16049
|
|
</> |
Сравнение энергозатрат при добыче разных монет
Притча на ночь: Леночка
“Мотолыги» идут гуськом.
Говорят киевляне и не только
Промышленный пояс Омска: дополнение
Ну, за Космос!
Еще 40 тысяч ведер, и ключик у нас в кармане
Осенние кружочки

