Из жизни открытого сообщества
kvisaz — 22.04.2024 На Reddit стал свидетелем забавной истории. Цукерберг выпустил в открытый мир нейронку Llama 3 - специально обученную на огромном объеме высококачественных текстов. Но с некоторой цензурой, которую с трудом но можно отменить через хитрый промпт.Сторонники освобождения нейронок от цензуры тут же взяли Llama 3 и как давай ее обучать на нецензурном наборе Dolphin dataset, а потом выпускают с гордостью и говорят
- Глядите, мы освободили Llama 3
Люди пробуют
- Что-то какая-то лажа получилась, по всем тестам просадка.
Оказалось, Dolphin dataset - это нецензурный, но тупой набор синтетических данных с огромной долей ответов от GPT 3.5
То есть создатели оригинала пыхтят-пыхтят, чтобы как-то догнать и перегнать GPT4, а файнтюнеры Дельфина не глядя херачат в обучающий процесс набор данных от устаревшей тупой нейронки.
Я даже хотел запретить им заниматься этим (я не могу запретить, но хочу, примерно как любой человек периодически хочет что-то запретить, но не имеет никакой власти), но потом зарефреймил себе так
- Ошибки и их вскрытие важный элемент улучшения. Проблема начнется не тогда, когда кто-то начнет делать откровенную ерунду, учить современные нейронки на датасетах 1914 года от калькулятора Однера, а когда в открытом сообществе возникнет массовая тенденция - "нельзя критиковать, ибо это дезавуирует наше движение, дискредитирует хороших людей, мы теряем авторитет"
Авторитет для меня теряется на этапе, когда исчезает обратная связь - тут уже ясно, что авторитет так обосрался, что боится даже замечаний, потому что по ночами он теперь будет рыдать в подушку, его никто не будет уважать и тд. Короче, когда авторитет времен обезьян и их статуса.
Поэтому пускай их, делают ошибки. Главное чтобы на Реддите всегда можно было прочитать
- Боже, да вы же обосрались! Кому из вас пришла в голову засунуть обучающий датасет от Железного Феликса в новейшую Иришу?
|
</> |