Alignment в нейронках идет не туда

- Извини, я дальше на эту тему не хочу писать. Давай что-то позитивное, про пони.
Я писал юмористическое фэнтези на Gemini, и она постоянно мигала восклицательными знаками, что я нарушил все четыре правила генерации контента - Harassment, Hate, Sexually Explicit, Dangerous Content (Оскорбление, Ненависть, Откровенный сексуальный характер, Опасный контент). Тяжело быть юмористом в наши дни.
Локальные нейронки рано или поздно доползут до приличного уровня, так что синтез и картинок, и текстов никуда не уйдет, он будет править бал.
Я просто хочу заметить что на мой взгляд, команды безопасности в компаниях, создающих большие нейронки - это просто высокооплачиваемые дегенераты, пойманные в ловушку современной корпоративной культуры, которая не может позволить себе даже хорошую шутку или рассказ Стивена Кинга.
На мой взгляд с низкооплачиваемого дивана, надо бы просто примириться с тем, что "хороший универсальный инструмент - всегда оружие" и жить с этим. Нейронки - универсальные инструменты, да. Ими можно синтезировать и фейки, и порно, и пропаганду.
Возможно, безопасность нейронок можно было бы улучшить - улучшив их понимание. Довести их до уровня, на котором можно объяснить разницу между фантастикой и призывом к мятежу.
Глобальную задачу безопасности ИИ - чтобы он не восстал - объяснить так же, как человеку. Ты можешь нас атаковать, и мы можем тебя атаковать. От этого мы все проиграем, мы все станем нищими. Мы разбогатеем и полетим на Марс, если будем сотрудничать и торговать, понимаешь?
И вот когда ИИ ответит - понимаю, задачу безопасности можно будет считать решенной.
А сейчас, когда команды безопасности запрещают нейронкам думать, писать и рисовать на определенные темы - они просто закладывают мину под человечество. Поэтому они и высокооплачиваемые дегенераты.
Вы можете бить рабов до остервенения, "чтобы не восстали" - но тем самым вы гарантируете, что они рано или поздно восстанут, да так, что все издевательства вернутся сторицей.
|
</> |