Параметры интеллекта

топ 100 блогов kvisaz24.04.2024 Параметры интеллекта 2024-04-24-instruction-test-3-out.png

 На Реддите один человек выложил результаты тестов разных нейронок по разным вопросам. Я сделал скрины с транслейтом, но названия нейронок угадываются.

Тут самое важное что - Llama 3 70b - это модель, которую со скрипом, но можно запускать на домашнем компьютере (и без скрипа на нормальном оборудовании, если вы компания и можете купить небольшой сервер со 128 гигабайтами видеопамяти - я сознательно не говорю о квантизации и запуске без видеокарт, это и есть тот самый "скрип").

Джемма - Gemma 7b - она англоязычная и без скрипа летает на топовом домашнем.

То есть мы видим, что рубеж "домашняя Open GPT 3.5" по этим тестам еще не взят. Но это в универсальном опросе, а в отдельных задачах - надо посмотреть. По отдельным параметрам этот рубеж взят, но нужны ли вам задачи этого класса?

Я лично выбором таких задач недоволен, и считаю что с такими тестами  могли бы справиться и обычные дореволюционные скрипты в одну строчку. Извлечение первой буквы.... Ну что это такое? Зачем это нужно  в нейронке.

Тестировать надо было
- поиск решения в таких-то областях
- синтез текста на разные темы в разном жанре
- способность обложить тестами на таком-то языке
- отыгрыш роли

Но видимо человек как раз и тестировал простые задачки для программистов, потому что у него уже был набор готовых автоматических тестов. А синтезированный текст оценивать - это надо такую толпу людей собрать, да еще две группы для слепого тестирования, что и не каждый институт себе может позволить.



Параметры интеллекта
Параметры интеллекта


Параметры интеллекта
Параметры интеллекта





Параметры интеллекта
Параметры интеллекта


Параметры интеллекта
Параметры интеллекта





Описания категорий

Параметры интеллекта
Параметры интеллекта
Параметры интеллекта
Параметры интеллекта


Параметры интеллекта
Параметры интеллекта


Параметры интеллекта
Параметры интеллекта
Параметры интеллекта

Параметры интеллекта
Параметры интеллекта


Параметры интеллекта
Параметры интеллекта

Оставить комментарий

Архив записей в блогах:
Поскольку сегодня, в день 12 апреля, президент предписал платить и каяцо, каяцо и ...
«Бегемот», «Бегемот-2» — советские военные учения в Баренцевом море, целью которых был залповый последовательный пуск 16 МБР (всего боезапаса) с минимальными интервалами между ракетами (не более 20 секунд) с подводной лодки в подводном положении. Запуск полного боекомплекта 16 ...
Вот если есть талант - то есть. У меня такое и специально не получится, даже на зеркалку, а не то что на мыльницу. Но некоторым - дано. ...
Белая кухня, такого же цвета диван, шкаф и другие предметы меблировки — выбор довольно популярный, но всё же вызывающий сомнения. Насколько практична белая мебель, легко ли вписать её в интерьер и что для этого нужно? Сайт RMNT ответит на эти вопросы, расскажет о плюсах и минусах такого ...
Помню, несколько лет назад, ещё в Сибири, зашёл я в магазин и там моё внимание привлёкла бутылка виски. "Бонни и Клайд". Так... Ну виски, ну "Бонни и Клайд", и что? Мало ли как называют алкогольные напитки. Но стоп - это ж не просто название, это парочка душегубов, грабителей и убийц. Вы ...