Без названия
dragon-ru — 06.10.2025
После долгого перерыва решил вернуться в ЖЖ. Слишком много идей
и тем, про которые написать хочется, а для Пикабу будет
неформат.
К примеру, сегодня придумал интересный бенчмарк для
нейросеток.
Скидываю им такой промпт:
Хочу предложить тебе необычный бенчмарк. Имеются 10 юморных
трёхстиший. Их разбили на отдельные строки, и эти строки
перемешали. Попробуй восстановить исходные трехстишья. (Поскольку я
не уверен, что ты получаешь разбиение текста на строки, я добавлю
"//" между строками)
---------------
Веди себя как подобает //
Проснулся на голой равнине //
Споткнулся и мордой о камень //
Теперь там гараж и терраса //
Нет, больше во сне не летаю //
На крыше построил скворечник //
На дерево бубен повесил //
Взялись острова и вулканы //
Вишневую косточку в землю //
Пусть лучше сгниет, чем засохнет //
И птицы на юг улетели //
Вдруг роза в саду распустились //
Задули холодные ветры //
Задался вопросом: откуда //
Крестьяне плантации риса //
Среди непогоды и ветра //
Был весь в синяках и ушибах //
Пытаясь достигнуть нирваны //
Теперь хоть никто не мешает //
Шаман из меня никудышный //
Зарыли мы прошлой весною //
И хлебные крошки носил им //
Не зря кипятком поливали //
Уж если приходит цунами //
И долго стучал в него палкой //
Беги и ори во всю глотку //
Обильно водой поливают //
Узнал. Кстати, так я и думал //
Скворцы обожрались и сдохли //
Бродил по охотничьим тропам //
и смотрю, сколько составлены полностью правильно, и сколько -
почти (строки те, но не в том порядке).
Пока результаты такие:
- Claude Sonnet 4.5 - 6+1
- Gemini Flesh 2.5 - 4+1
- Qwen 3 Max - 3+2 (приятно то, что он выдал не только ответ, но
и процесс рассуждений. В нем был еще один правильный ответ, но
поскольку qwen от него отказался - я его не засчитал.)
- Grok - 3+1
- ChatGPT - 3+1
- Mistral - 2+0
- Deepseek - 0+0 (а вот этот провал для меня был
неожиданным)
P.S. Набор трехстиший и сама идея позаимствованы у Жвалевского
(
az_im) и
Мытько.