Рейтинг chat.lmsys
kvisaz — 26.04.2024
На chat.lmsys.org есть рейтинг на основе народной битвы дронов
- то есть люди произвольно заходят без регистрации, выбирают любые
две модели, делают запрос и голосуют, какой ответ лучше.Тут есть небольшой косяк - платные модели часто выдают сбой из-за превышения лимитов. Ну и скажите, за кого я должен проголосовать.
Я думаю, они должны как-то предусмотреть такие кейсы, но поскольку информации об этом пока не нашел, считаю, что рейтинги chat.lmsys.org могут быть слегка или даже весьма некорректны.
Похожий эффект я видел и в каких-то других тестах, где на Реддите человек оценил способности перевода у GPT4 в 0, а у Llama низко, но не ноль, потому что промпт был "переведи и выведи с особыми условиями" - и вот на особых условиях GPT4 не выполнил ничего, а Llama попытался. Это был дурной тестер, негодный, несите другого.
Поэтому когда в рейтингах Llama 3 становится лучше GPT 4 - я теперь всегда буду держать в голове этот скриншот:

Llama 3 конечно хороша, но не настолько.
|
|
</> |
Критическое мышление в бизнесе: как научиться принимать взвешенные решения
Подмена Рождества
Почему Юра в юности расстался с Олей и не захотел снова завести с ней роман
Ищейка \ The Closer (1 сезон, 2005)
Испания. Segovia
Японская поездка №1, день 11 часть 8
Тенденции, однако
Ближний Восток: новые реалии
Кто и как готовит нам революцию

