Естественные стратегии развития
thesz — 28.08.2025
Они же natural evolution strategies: https://en.wikipedia.org/wiki/Natural_evolution_strategyСтатья про сущность в единственном числе, но на самом деле их несколько, я могу, навскидку, вспомнить про NES с полной матрицей ковариаций и с диагональной. В обеих случаях используется гауссиана для оценки вероятности, просто оценки взаимного влияния параметров разные.
Ещё NES использует матрицу информации Фишера (МИФ или FIM по-английски) для вычисления естественного градиента (natural gradient). МИФ вычисляется для параметров NES, которые, сами себе, имеют размер в квадрат от оцениваемых параметров (из-за наличия полной матрицы ковариаций). МИФ, сама по себе, вычисляется, как сумма внешних произведений градиентов на самих себя, то есть, МИФ содержит квадрат от количества параметров вероятности, то есть, размер МИФ это четвертая степень от количества параметров. Градиентов для МИФ надо не менее квадрата от параметров, при вычислении суммарного градиента сами градиенты вероятности взвешиваются, исходя из их предсказательной способности.
Собственно, по этйо причине NES и никто не использует - терабайты на хранение МИФ для тысячи параметров, петафлопы для вычисления предсказательной силы и весов всех градиентов
Поэтому и разработали NES с диагональной матрицей. Там умножение на МИФ имеет закрытую форму, её не надо вычислять и хранить, и параметров многажды меньше.
Однако, остаётся вопрос с шагом изменений параметров и, вообще, необходимости в естественном градиенте. Без естественного градиента NES не сходятся, по словам авторов NES. А шаг обучения ν (wi+1=wi+νgi) надо выбирать такой, чтобы не произошёл откат.
По второму вопросу у меня свой вопрос-соображение: почему авторы не использовали сопряжённый градиент? Ведь устранение предыдущего направления поиска минимума ограничивает текущий поиск. И с ним же связан второе соображение: почему бы нам не использовать поиск по лучу для определения шага ν? У нас есть оценки предсказательной силы для нескольких наборов параметров, есть позиции упорядочения этих параметров, нам надо сделать так, чтобы новые, обновлённые параметры распределения вероятностей параметров давали порядок вероятностей параметров, как можно более близкий к их порядку по предсказательной силе.
Пойду спать.
|
|
</> |
Психология ставок: почему азарт притягивает и как сохранять трезвый подход
внучечка Adel. годик
Королева Рания и Анна Винтур на Franca Fund Gala в Дохе
Намек? Хотя скорее всего, результат какого-то глушения и/или подделки
Главы 1 - 3
Корейский сад в берлинских "Садах мира"
ФСБ предотвратила покушение на Троекуровском кладбище
Суббота

