Прогресс нейронок-семибиток за 7 месяцев 2023

топ 100 блогов kvisaz02.12.2023 Вот топ опен-сорсных нейронок - https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Я его мониторю регулярно, и вижу, как ползут проценты по тестам. Особенно интересны модели 7b (7 миллиардов параметров). Там есть и 13b, и 70b, они обычно всегда намного выше своих "семибитных" вариантов.

Но "семибитки" могут запускаться на локальном компьютере без потерь, они влазят в видеопамять RTX4090 (24 гигабайта памяти). И видимо по этой причине, к "семибиткам" (сокращенно от "семь биллионов", а не "семь бит") повышенный интерес на Реддите и там происходит активная эволюция. Иногда крупные компании выпускают наученную с нуля нейронку с новыми подходами. Иногда какой-то домашний хакер берет базовую старую модель и учит ее за свои деньги или вообще на домашнем компьютере на новом датасете. Иногда вообще берут две модели и пытаются их сложить по хитрой схеме, чтобы сохранить преимущества обоих и закрыть недообученные области.

Напомню, что нейронка в своей основе - это сложный комплекс многомерных числовых массивов. И даже за счет работы с этими числами можно улучшить их работу. Как я только что сказал, к примеру, соединить две нейронки одного типа так, чтобы насыщенные области многомерного пространства одной закрыли бедные области многомерного пространства другой.

Это все равно, что взять профессора-.... Ну хорошо, студента-первокурсника по геологической специальности и студента по математика - и сложить их памяти и опыт. С живыми интеллектами мы так не умеем, а с цифровыми - пожалуйста.

Помимое прочего, такое сложение интеллектов - одно из явных доказательств ложности тезиса "мы не понимаем, что внутри у нейронки". Люди - специалисты в смысле - они прекрасно понимают, что там внутри. Человечество в целом уже намного лучше понимает, что происходит в цифровом интеллекте, чем в живом.

12 мая 2023 года я тестировал локальные нейронки Vicuna.
- Vicuna 7b показал рейтинг в топе <50
- Vicuna 13b - рейтинг 55
- Vicuna 70b - 63.6

Рейтинг означает процент успешного решения тестов, типа таких. Аналог теста IQ для машин. Рейтинг 100 пока никем не достигнут, но когда он появится - видимо, будет означать, что кто-то наконец натаскал нейронку под набор этих тестов. Но он достаточно огромен, разнообразен и включает разные интересные задачи, которые можно переиспользовать в практике. Так что даже "заточенность под тесты" - имеет практический выхлоп, если набор тестов огромен.

При этом я смотрю данные по нынешнему состоянию - и базовая, и производные версии Викуны за это время уже могли многократно обновиться, то есть в оригинале было намного хуже. Процента на два точно.

Сегодня в топе "семибитных" текстовых нейронок - ряд моделей с рейтингом выше 63. Они дышат в затылок более мощным моделям.

Максимальный рейтинг в топе 72.74 у какой-то 70b модели. GPT4, Клод и другие закрытые гранды не участвуют в этих тестах, это только для open-source и свободно скачиваемых.

То есть за неполный год эволюция локальных нейронок продемонстрировала, что запас в обучении есть. У меня есть большие сомнения, что "семибитки" могут без конца выжимать воду из камня, то есть демонстрировать прогресс на своих заведомо ограниченных ресурсах. Но сам прогресс радует. Проценты в топе пока ползут. Примерно каждую неделю выходит очередная семибитка, которая поднимается чуть выше остальных.

Я иногда скачиваю из топа "семибитки" без квантизации, то есть хакинга, который немного ухудшает характеристики, но позволяет запускать на процессоре, а не видеокарте).

Они по-прежнему далеки от GPT4 и Клода в плане попыток написания художественного текста, шуток и хорошего кодирования. Но они явно прошли хороший путь от отвратительного SEO-текста до почти полноценного SEO-текста. Это на русском языке, которому их никто специально не учил, не оптимизировал.

В комментариях образцы текста.

Когда вам показывают образцы из лаборатории, постарайтесь их не воспринимать как финальный продукт или образец намерений. Иначе надо обвинить школьников в рассечении лягушек, а составителей таких учебных программ - в подготовке живодеров. Да и вообще непонятно, кому можно продать рассеченную лягушку.



Оставить комментарий

Архив записей в блогах:
это очень серьёзный вопрос. экономика Родины на гране кризиса. авторынок упал на четверть. коровы не доены, куры не топтаны, сенокос стоит. цены на нефть падают цатую неделю подряд. а бензин всё дорожает. доколе будет такая нелогичная логика? отвечать будет Александр Друзь. ...
Дизайнером Алексом Халмом был создан калькулятор, который имеет сенсорный экран в размер самого устройства. Гаджет полностью лишён механических элементов, что многократно продлевает срок его службы. ...
  Из яичной скорлупы делают картинки, по ней режут узоры, но оказалось, что есть умелицы, которые вышивают по этому хрупкому материалу... Такой мастерицей оказалась Элизабет Кляйн из Франции, которая уже в течение десяти лет создает ...
Мій любий Тато - дякую тобі за все. Мой дорогой папа - спасибо тебе за все. Мария Максакова (((((((((Прости, Петр, и прощай, дочь только сегодня обнародовала сообщение о кончине( ...
Потому, что там не инженеры, а дятлы и хипстеры. Возможно инженеры там тоже есть, но задятленные и захипстеренные. Запихнуть в такие корпуса мощные процы, без охлаждения, без просчитанной термозащиты, без электрической защиты, да ещё с левыми акку - уже маразм. А потом нагружают ...