Большой обзор LLM for Code Generation

топ 100 блогов nponeccop28.06.2024 https://arxiv.org/abs/2406.00515

Там 285 референсов. Всё, что вы хотели знать про state of the art in LLM Code Generation, но боялись спросить.

Я тут смотрю поток видео на етубе в связи со всеобщим надрачиванием на Claude Sonnet 3.5. Не покидает ощущение какого-то наивняка и некомпетентности. Обзирающие все поголовно ведут себя как джуны, самостоятельно ничего сложнее пузырька не делавшие, и даже не смотревшие мультик про "мальчик квадратный ковер выбивает".

Ну то есть должно же быть очевидно, что все эти тесты "напиши мне тетрис за 1-шот" это полный бред, ни один человек с таким не справится, ну чтобы вот взять сесть писать текст и просто вот сверху вниз наебошить в редакторе на одном дыхании что-то размером с тетрис. Зачем вообще это тестировать? Ну то есть да, это такое представление о разработке софта после просмотра фильма Хакеры (я не смотрел). Бред в-общем. Классическое "все пидарасы, а я".

Причем что интересно, товарищи из AutoGPT и MetaGPT пытаются играть в ту же самую игру. А именно, исключить man-in-the-loop и сделать процесс разработки максимально непрозрачным и неконтролируемым, зато сделав ставку на полную автоматизацию процесса. Но потом получают по голове ровно тем же, что бы они получили, просто наняв команду мясных джунов и проверив их результаты через месяц -- что разработка зашла не в ту степь, причем с самого начала и совершенно на пустом месте.

Что нужно на мой взгляд -- так это история разработки проекта в гите, то есть с возможностью отката до любой точки и продолжения с этого места, а также процесс ручного утверждения и обратной связи на всех этапах. То есть никаких "циклов" из промптов быть не может. Должен быть инструмент типа коммандлайновой тулзы "develop step". Который дописывает в репу следующий шаг разработки с аудит-трейлом. (И это заодно избавляет нас от расходов на 100500 вызовов LLM API и от необходимости их кешировать).

Тут конечно нужен какой-то баланс между автоматизацией и контролем, но по факту автоматизация сейчас крайне хуевая (а ля автопилот в Тесле) и любителей автоматизировать овердохуя (см выше), так что нужна тулза для любителей контролировать.

Оставить комментарий

Архив записей в блогах:
Катя my_happyhouse , я попробоваала на своем тесте расстойку 1,5 часа после 1,5 часов в режиме Тесто. Получилось не плохо. Теперь можно пробовать и твое тесто. 280 мл молока 2 яйца 150 гр растопленного сливочного масла 600 гр муки 4,5 г соли 80 гр сахара 7,5 г ...
Artist : Guidеd bу Vоiсеs Album : Strut оf Кings Year : 2024 Genre : Rock, Garage Rock, Indie Rock Bitrate : 320 Kbps Size : ~101 Mb DL : TBit Strut оf Кings - 40-й по счёту студийник Роберта Полларда и его инди-рок-команды Guidеd Ву Vоiсеs . Пластинка, как и предыдущие, ...
Я так поняла, что мама-народу вполне себе интересна тема прогулок с детьми больше одного-двух. А особенно великолепный и затягивающий процесс сборов на улицу. Как сделать его кайфовым, а не безумным? Хо-хо, дорогие мамули, если б я знала, то мой левый глаз никогда бы не дергался (это ...
Среди людей, занимающихся музыкой, безладовый бас воспринимается, как что-то очень и очень сложное. Ведь есть обычная бас-гитара, у которой нанесены лады на накладке грифа, а значит попадать в ноты значительно удобнее. Да, безладовый бас требует большей точности в движениях, но ...
Уже вторую неделю живу один. Жена с детьми уехала в деревню. Понятно, что детям там лучше - свежий воздух, парное молоко, экологически чистые овощи и фрукты :) Жизнь одного имеет свою прелесть. Делаешь, что хочешь. Можешь приходить домой поздно, ...