Гессиан
thesz — 06.01.2025
https://arxiv.org/pdf/2106.16225 - ранг Гессиана
(Hessian) нейросетей много меньше количества параметров. Причём в
статье выводится точная формула ранга.Из интересных спецэффектов обнаружено большое количество одинаковых собственных значений.
Ещё там указывается, что улучшение обобщения за счёт увеличения ширины слоёв или глубины сети непосредственно связано с уменьшением отношения ранга к числу параметров.
Собственных мыслей у меня по этому поводу мало.
На stackoverflow увидел интересное соображение про нейросети: для любых двух значений в каком-то скрытом слое мы можем переставить вектора их вычислений и их коэффициенты в вычислениях, поэтому количество минимумов для нейросети может быть (для современных моделей) практически сколь угодно большим, даже если функция потерь выпукла.
Если я правильно понял, в статье рассматривается Гессиан функции потерь по выборке (популяции). То есть, речь идёт не о Гессиане одной пары, а о сумме Гессианов.
В общем, огорчительно это. ;)
Как выбрать уличный фонарь: экономим без потери качества 
