Рейтинг chat.lmsys

Тут есть небольшой косяк - платные модели часто выдают сбой из-за превышения лимитов. Ну и скажите, за кого я должен проголосовать.
Я думаю, они должны как-то предусмотреть такие кейсы, но поскольку информации об этом пока не нашел, считаю, что рейтинги chat.lmsys.org могут быть слегка или даже весьма некорректны.
Похожий эффект я видел и в каких-то других тестах, где на Реддите человек оценил способности перевода у GPT4 в 0, а у Llama низко, но не ноль, потому что промпт был "переведи и выведи с особыми условиями" - и вот на особых условиях GPT4 не выполнил ничего, а Llama попытался. Это был дурной тестер, негодный, несите другого.
Поэтому когда в рейтингах Llama 3 становится лучше GPT 4 - я теперь всегда буду держать в голове этот скриншот:

Llama 3 конечно хороша, но не настолько.
|
</> |