Рейтинг chat.lmsys
kvisaz — 26.04.2024
На chat.lmsys.org есть рейтинг на основе народной битвы дронов
- то есть люди произвольно заходят без регистрации, выбирают любые
две модели, делают запрос и голосуют, какой ответ лучше.Тут есть небольшой косяк - платные модели часто выдают сбой из-за превышения лимитов. Ну и скажите, за кого я должен проголосовать.
Я думаю, они должны как-то предусмотреть такие кейсы, но поскольку информации об этом пока не нашел, считаю, что рейтинги chat.lmsys.org могут быть слегка или даже весьма некорректны.
Похожий эффект я видел и в каких-то других тестах, где на Реддите человек оценил способности перевода у GPT4 в 0, а у Llama низко, но не ноль, потому что промпт был "переведи и выведи с особыми условиями" - и вот на особых условиях GPT4 не выполнил ничего, а Llama попытался. Это был дурной тестер, негодный, несите другого.
Поэтому когда в рейтингах Llama 3 становится лучше GPT 4 - я теперь всегда буду держать в голове этот скриншот:

Llama 3 конечно хороша, но не настолько.
|
|
</> |
Не просто украшение: почему люди выбирают вещи на заказ
Будь в Прибалтике выборные президенты, то и налоги могли бы стать честными.
«Смешались в кучу кони, люди», штыки и сабли
Веселые картинки
Счастливого Рождества!
Ёлка за пять минут
Питер — 2025 (26.05.25) Петергоф. 6
В преддверии Дня Рождения Кэтрин выложены фото, где она подружка невесты на
Первый день 2026 года в Европа-парке

