Тест, в котором человек во много раз сильнее нейронок

топ 100 блогов kvisaz28.06.2024

Рейтинг MuSR (Multistep Soft Reasoning) - один из наиболее ярких, на которых нейронки пока страшно далеки от человека.

Задачи заключаются либо в загадках убийств, в вопросах размещения объектов, либо в оптимизации распределения команд. Чтобы решить эти проблемы, модели должны сочетать рассуждения и очень дальний анализ контекста. Немногие модели имеют более высокие показатели, чем случайная производительность.

"сложные примеры рассуждений, бросающие вызов GPT-4 (например, загадки убийств длиной примерно 1000 слов)... Во-вторых, экземпляры наших наборов данных представляют собой текстовые повествования, соответствующие реальным областям рассуждений; это одновременно делает его намного более сложным, чем другие синтетические тесты, оставаясь при этом реалистичными и удобными для решения человеком-аннотаторами с высокой точностью." цитата из описания теста

На картинке оценки приведены к шкале, где 0 - это случайное угадывание.
Источник - https://www.reddit.com/r/LocalLLaMA/comments/1dphen0/musr_is_one_of_the_few_benchmarks_where_human/

Приставка COT+ означает, что нейронку спрашивали, показывая пример решения и намекая на стратегию рассуждений.

Тут интересно две, нет три вещи

1. Похоже именно такие задачи мы ожидаем от взрослого специалиста в нормальной профессии, и у человека тут огромное преимущество по сравнению даже с лучшими нейронками

2. Разрывы между человеком и GPT4 - огромны, между GPT4 и Llama 70b, которая "выглядит почти как GPT4 по мнению любителей домашних нейронок" - еще больше! Локальным нейронкам на самом деле пока страшно далеко даже до GPT 3.5 (хотя прогресс в понимании и синтеза текстов на русском языке у них за последний год просто невероятен!)


3. на примере GPT 3.5 видно, что чем слабее модель, тем хуже она понимает даже примеры рассуждений

Означает ли это, что гении с примером рассуждений могут перевернуть Землю, а дурак только лоб расшибет даже о точную пошаговую инструкцию?

Означает ли это, что студентов можно и нужно тащить на экзамене, так как именно в таком процессе становится наиболее яркой разница между хоть как-то способным, и абсолютно негодным рассуждатором?

Тест, в котором человек во много раз сильнее нейронок




Ссылки
- картинка отсюда -https://www.reddit.com/r/LocalLLaMA/comments/1dphen0/musr_is_one_of_the_few_benchmarks_where_human/
- описание разных методологий тестирования - https://huggingface.co/spaces/open-llm-leaderboard/blog
- статья про MUSR - https://arxiv.org/abs/2310.16049

Оставить комментарий

Архив записей в блогах:
...
Жили-были М. и Ж., встречались без серьёзных отношений. После одной из встреч Ж. залетела. Ж. заявила, чтой ей ребенок не нужен, а М. обязан оплатить аборт. Они пару раз поругались, внезапно М. задал вопрос, сколько стоят услуги Ж. как суррогатной мамы. Она получает деньги, рожает, ...
Вам нравится спаржа? Продукт, про который давным-давно писали: «Сие растение не имеет никакого порока». Бытует мнение, что спаржа произошла из России. И есть море исследований, подтверждающих эту теорию. А если так, почему она такая дорогая сегодня? И почему ее нет на каждом столе? ...
Здравствуйте, есть у нас в сообществе владельцы IQ? Хочу поменять Smart на IQ, очень хотелось бы пообщаться с реальным владельцем/владелицей IQ, чтобы меня прокатили, показали/рассказали все. В свою очередь могу прокатить/дать прокатиться на Смарте, всё рассказать если интересно про ...
Группа ученых проанализировала пищевые привычки шерстистых мамонтов, а также оценила количество биомассы в северных районах и выяснила, сколько таких гигантов смогла бы прокормить современная Северная Аляска. ( Read more ... ...