Прогресс нейронок-семибиток за 7 месяцев 2023

Я его мониторю регулярно, и вижу, как ползут проценты по тестам. Особенно интересны модели 7b (7 миллиардов параметров). Там есть и 13b, и 70b, они обычно всегда намного выше своих "семибитных" вариантов.
Но "семибитки" могут запускаться на локальном компьютере без потерь, они влазят в видеопамять RTX4090 (24 гигабайта памяти). И видимо по этой причине, к "семибиткам" (сокращенно от "семь биллионов", а не "семь бит") повышенный интерес на Реддите и там происходит активная эволюция. Иногда крупные компании выпускают наученную с нуля нейронку с новыми подходами. Иногда какой-то домашний хакер берет базовую старую модель и учит ее за свои деньги или вообще на домашнем компьютере на новом датасете. Иногда вообще берут две модели и пытаются их сложить по хитрой схеме, чтобы сохранить преимущества обоих и закрыть недообученные области.
Напомню, что нейронка в своей основе - это сложный комплекс многомерных числовых массивов. И даже за счет работы с этими числами можно улучшить их работу. Как я только что сказал, к примеру, соединить две нейронки одного типа так, чтобы насыщенные области многомерного пространства одной закрыли бедные области многомерного пространства другой.
Это все равно, что взять профессора-.... Ну хорошо, студента-первокурсника по геологической специальности и студента по математика - и сложить их памяти и опыт. С живыми интеллектами мы так не умеем, а с цифровыми - пожалуйста.
Помимое прочего, такое сложение интеллектов - одно из явных доказательств ложности тезиса "мы не понимаем, что внутри у нейронки". Люди - специалисты в смысле - они прекрасно понимают, что там внутри. Человечество в целом уже намного лучше понимает, что происходит в цифровом интеллекте, чем в живом.
12 мая 2023 года я тестировал локальные нейронки Vicuna.
- Vicuna 7b показал рейтинг в топе <50
- Vicuna 13b - рейтинг 55
- Vicuna 70b - 63.6
Рейтинг означает процент успешного решения тестов, типа таких. Аналог теста IQ для машин. Рейтинг 100 пока никем не достигнут, но когда он появится - видимо, будет означать, что кто-то наконец натаскал нейронку под набор этих тестов. Но он достаточно огромен, разнообразен и включает разные интересные задачи, которые можно переиспользовать в практике. Так что даже "заточенность под тесты" - имеет практический выхлоп, если набор тестов огромен.
При этом я смотрю данные по нынешнему состоянию - и базовая, и производные версии Викуны за это время уже могли многократно обновиться, то есть в оригинале было намного хуже. Процента на два точно.
Сегодня в топе "семибитных" текстовых нейронок - ряд моделей с рейтингом выше 63. Они дышат в затылок более мощным моделям.
Максимальный рейтинг в топе 72.74 у какой-то 70b модели. GPT4, Клод и другие закрытые гранды не участвуют в этих тестах, это только для open-source и свободно скачиваемых.
То есть за неполный год эволюция локальных нейронок продемонстрировала, что запас в обучении есть. У меня есть большие сомнения, что "семибитки" могут без конца выжимать воду из камня, то есть демонстрировать прогресс на своих заведомо ограниченных ресурсах. Но сам прогресс радует. Проценты в топе пока ползут. Примерно каждую неделю выходит очередная семибитка, которая поднимается чуть выше остальных.
Я иногда скачиваю из топа "семибитки" без квантизации, то есть хакинга, который немного ухудшает характеристики, но позволяет запускать на процессоре, а не видеокарте).
Они по-прежнему далеки от GPT4 и Клода в плане попыток написания художественного текста, шуток и хорошего кодирования. Но они явно прошли хороший путь от отвратительного SEO-текста до почти полноценного SEO-текста. Это на русском языке, которому их никто специально не учил, не оптимизировал.
В комментариях образцы текста.
Когда вам показывают образцы из лаборатории, постарайтесь их не воспринимать как финальный продукт или образец намерений. Иначе надо обвинить школьников в рассечении лягушек, а составителей таких учебных программ - в подготовке живодеров. Да и вообще непонятно, кому можно продать рассеченную лягушку.