Большой обзор LLM for Code Generation

топ 100 блогов nponeccop28.06.2024 https://arxiv.org/abs/2406.00515

Там 285 референсов. Всё, что вы хотели знать про state of the art in LLM Code Generation, но боялись спросить.

Я тут смотрю поток видео на етубе в связи со всеобщим надрачиванием на Claude Sonnet 3.5. Не покидает ощущение какого-то наивняка и некомпетентности. Обзирающие все поголовно ведут себя как джуны, самостоятельно ничего сложнее пузырька не делавшие, и даже не смотревшие мультик про "мальчик квадратный ковер выбивает".

Ну то есть должно же быть очевидно, что все эти тесты "напиши мне тетрис за 1-шот" это полный бред, ни один человек с таким не справится, ну чтобы вот взять сесть писать текст и просто вот сверху вниз наебошить в редакторе на одном дыхании что-то размером с тетрис. Зачем вообще это тестировать? Ну то есть да, это такое представление о разработке софта после просмотра фильма Хакеры (я не смотрел). Бред в-общем. Классическое "все пидарасы, а я".

Причем что интересно, товарищи из AutoGPT и MetaGPT пытаются играть в ту же самую игру. А именно, исключить man-in-the-loop и сделать процесс разработки максимально непрозрачным и неконтролируемым, зато сделав ставку на полную автоматизацию процесса. Но потом получают по голове ровно тем же, что бы они получили, просто наняв команду мясных джунов и проверив их результаты через месяц -- что разработка зашла не в ту степь, причем с самого начала и совершенно на пустом месте.

Что нужно на мой взгляд -- так это история разработки проекта в гите, то есть с возможностью отката до любой точки и продолжения с этого места, а также процесс ручного утверждения и обратной связи на всех этапах. То есть никаких "циклов" из промптов быть не может. Должен быть инструмент типа коммандлайновой тулзы "develop step". Который дописывает в репу следующий шаг разработки с аудит-трейлом. (И это заодно избавляет нас от расходов на 100500 вызовов LLM API и от необходимости их кешировать).

Тут конечно нужен какой-то баланс между автоматизацией и контролем, но по факту автоматизация сейчас крайне хуевая (а ля автопилот в Тесле) и любителей автоматизировать овердохуя (см выше), так что нужна тулза для любителей контролировать.

Оставить комментарий

Архив записей в блогах:
В прошедшем июле я провел десять дней на реке Камбальная в Южно-Камчатском федеральном заказнике. В одно прекрасное утро мы с напарником стояли на берегу длинного переката, на котором бесконфликтно рыбачили десятка полтора разновозрастных медведей. Вдруг их всех как ветром сдуло - галоп ...
сижу дома с распухшим после зубного лицом. разбираю фото, а надо бы отчеты по ресторану разгребать за лето... хочу на море! плавать) ладно. акции-шмакции. сегодня я протестую своим купальником номер 15, против несвоевременных действий против одного нашего олигарха. олигархи, это кон ...
Майдан почався чи ни? ...
Что касается смерти бабушки-блокадницы, укравшей в "Магните" 2 пачки масла. Чего только не написали, вплоть до того, что Крым во всем виноват. На самом деле, история поднимает 3 вопроса, которые требуют немедленного решения. Первое. Где были социальные службы, которые должны обеспечивать ...
Наконец-то, заметили. Вчера все-таки ЦБ заметил, а сегодня Мосбиржа приостановила торги. +8000% за две недели в акциях компании, которая находится в портфеле пенсионного фонда (хоть, и в пенсионных резервах, а не накоплениях) это, конечно, сильно: Раньше такая история постоянно ...