Параметры интеллекта
kvisaz — 24.04.2024На Реддите один человек выложил результаты тестов разных нейронок по разным вопросам. Я сделал скрины с транслейтом, но названия нейронок угадываются.
Тут самое важное что - Llama 3 70b - это модель, которую со скрипом, но можно запускать на домашнем компьютере (и без скрипа на нормальном оборудовании, если вы компания и можете купить небольшой сервер со 128 гигабайтами видеопамяти - я сознательно не говорю о квантизации и запуске без видеокарт, это и есть тот самый "скрип").
Джемма - Gemma 7b - она англоязычная и без скрипа летает на топовом домашнем.
То есть мы видим, что рубеж "домашняя Open GPT 3.5" по этим тестам еще не взят. Но это в универсальном опросе, а в отдельных задачах - надо посмотреть. По отдельным параметрам этот рубеж взят, но нужны ли вам задачи этого класса?
Я лично выбором таких задач недоволен, и считаю что с такими тестами могли бы справиться и обычные дореволюционные скрипты в одну строчку. Извлечение первой буквы.... Ну что это такое? Зачем это нужно в нейронке.
Тестировать надо было
- поиск решения в таких-то областях
- синтез текста на разные темы в разном жанре
- способность обложить тестами на таком-то языке
- отыгрыш роли
Но видимо человек как раз и тестировал простые задачки для программистов, потому что у него уже был набор готовых автоматических тестов. А синтезированный текст оценивать - это надо такую толпу людей собрать, да еще две группы для слепого тестирования, что и не каждый институт себе может позволить.
Описания категорий
|
</> |