Прогресс нейронок-семибиток за 7 месяцев 2023

топ 100 блогов kvisaz02.12.2023 Вот топ опен-сорсных нейронок - https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Я его мониторю регулярно, и вижу, как ползут проценты по тестам. Особенно интересны модели 7b (7 миллиардов параметров). Там есть и 13b, и 70b, они обычно всегда намного выше своих "семибитных" вариантов.

Но "семибитки" могут запускаться на локальном компьютере без потерь, они влазят в видеопамять RTX4090 (24 гигабайта памяти). И видимо по этой причине, к "семибиткам" (сокращенно от "семь биллионов", а не "семь бит") повышенный интерес на Реддите и там происходит активная эволюция. Иногда крупные компании выпускают наученную с нуля нейронку с новыми подходами. Иногда какой-то домашний хакер берет базовую старую модель и учит ее за свои деньги или вообще на домашнем компьютере на новом датасете. Иногда вообще берут две модели и пытаются их сложить по хитрой схеме, чтобы сохранить преимущества обоих и закрыть недообученные области.

Напомню, что нейронка в своей основе - это сложный комплекс многомерных числовых массивов. И даже за счет работы с этими числами можно улучшить их работу. Как я только что сказал, к примеру, соединить две нейронки одного типа так, чтобы насыщенные области многомерного пространства одной закрыли бедные области многомерного пространства другой.

Это все равно, что взять профессора-.... Ну хорошо, студента-первокурсника по геологической специальности и студента по математика - и сложить их памяти и опыт. С живыми интеллектами мы так не умеем, а с цифровыми - пожалуйста.

Помимое прочего, такое сложение интеллектов - одно из явных доказательств ложности тезиса "мы не понимаем, что внутри у нейронки". Люди - специалисты в смысле - они прекрасно понимают, что там внутри. Человечество в целом уже намного лучше понимает, что происходит в цифровом интеллекте, чем в живом.

12 мая 2023 года я тестировал локальные нейронки Vicuna.
- Vicuna 7b показал рейтинг в топе <50
- Vicuna 13b - рейтинг 55
- Vicuna 70b - 63.6

Рейтинг означает процент успешного решения тестов, типа таких. Аналог теста IQ для машин. Рейтинг 100 пока никем не достигнут, но когда он появится - видимо, будет означать, что кто-то наконец натаскал нейронку под набор этих тестов. Но он достаточно огромен, разнообразен и включает разные интересные задачи, которые можно переиспользовать в практике. Так что даже "заточенность под тесты" - имеет практический выхлоп, если набор тестов огромен.

При этом я смотрю данные по нынешнему состоянию - и базовая, и производные версии Викуны за это время уже могли многократно обновиться, то есть в оригинале было намного хуже. Процента на два точно.

Сегодня в топе "семибитных" текстовых нейронок - ряд моделей с рейтингом выше 63. Они дышат в затылок более мощным моделям.

Максимальный рейтинг в топе 72.74 у какой-то 70b модели. GPT4, Клод и другие закрытые гранды не участвуют в этих тестах, это только для open-source и свободно скачиваемых.

То есть за неполный год эволюция локальных нейронок продемонстрировала, что запас в обучении есть. У меня есть большие сомнения, что "семибитки" могут без конца выжимать воду из камня, то есть демонстрировать прогресс на своих заведомо ограниченных ресурсах. Но сам прогресс радует. Проценты в топе пока ползут. Примерно каждую неделю выходит очередная семибитка, которая поднимается чуть выше остальных.

Я иногда скачиваю из топа "семибитки" без квантизации, то есть хакинга, который немного ухудшает характеристики, но позволяет запускать на процессоре, а не видеокарте).

Они по-прежнему далеки от GPT4 и Клода в плане попыток написания художественного текста, шуток и хорошего кодирования. Но они явно прошли хороший путь от отвратительного SEO-текста до почти полноценного SEO-текста. Это на русском языке, которому их никто специально не учил, не оптимизировал.

В комментариях образцы текста.

Когда вам показывают образцы из лаборатории, постарайтесь их не воспринимать как финальный продукт или образец намерений. Иначе надо обвинить школьников в рассечении лягушек, а составителей таких учебных программ - в подготовке живодеров. Да и вообще непонятно, кому можно продать рассеченную лягушку.



Оставить комментарий

Архив записей в блогах:
Такой территорией нынче можно считать развесобственный дом -  ведь в местах публичных свобода самовыражаться ограничена всевозможными правилами, а местами даже и законом. Остаются разве балконы - они как бы и часть дома, и одновременно доступная взглядам каждого общественная ...
© Источник ...
Власти США решили, что Россия достаточно экономически развита для того, чтобы прекратить давать ей преференции в торговле. Теперь при ввозе в США российская продукция будет на общих основаниях облагаться таможенными пошлинами. Барак Обама также подчеркнул, что к санкциям это решение, ...
Я уже в очередной раз получаю ответку от своей любимой аудитории. Вот и вчера меня в очередной раз смешали с г..ном рассказав, какой из меня хр.новый инвестор. Вытирая слезы, хочу сегодня поговорить с вами про ложные ценности. Уверен многие из вас мечтают стать богатыми или очень ...
Сегодня там вновь работала строительная техника и протестовали местные жители. ...