О редкости сложной функции в пространстве строк
biosemiotics — 21.09.2024 От дарвинистов часто можно слышать, что пространство, в котором определена фитнес-функция, кишит функциональными пиками. В этой записке я постараюсь показать, почему это не так для относительно сложных функций. Причём редкость/разрежённость (sparsity) сложных функций, определённых в дискретном пространстве строк, составленных из символов фиксированного алфавита, есть следствие сложности строковых функций, с необходимостью вытекающее из самого понятия функциональной сложности. А поэтому надежды неодарвинистов на то, что эволюционное блуждание* по пространству строк, обязательно набредёт на сложную функцию (что ни кинь -- всё клин), не просто беспочвенны, но вскрывают недостаток осознания дарвинистами феномена сложной функции как такового.----------
* Следует обратить внимание на то, что подавляющее большинство мутаций нейтральны, поэтому эволюционные движения в подавляющем большинстве случаев -- это случайное блуждание по соответствующему пространству параметров без оценивания качества состояний. Нейтральная мутация не видна отбору по определению, а значит в большинстве случаев мы имеем фитнес-плато. Отбор впрягается только в окрестности относительно редких пиков фитнес-функции.
Функция, определённая в пространстве Ω строк символов
фиксированного алфавита A, по необходимости является разрежённой
(sparse). Причём степень разрежённости тем больше, чем выше
сложность функции.
Прежде всего заметим, что функция определена в нашем случае на
множестве дискретных переменных, то есть строк. Функциональная
сложность строки s ∈ Ω измеряется количеством функциональной
информации в ней*:
If(s) = —log2(|Tf|/|Ω(A)|),
где:
- Ω(A) -- пространство возможных строк символов алфавита А.
- Tf -- целевое подпространство, включающее лишь строки, доставляющие функцию f.
- |X| -- число элементов множества Х.
----------
* Заметим, что физический смысл приведённой формулы
заключается в вероятности попадания в целевое подпространство
средствами естественных ненаправляемых взаимодействий (natural
unguided processes): достаточно сложная функция соответствуют
достаточно малой вероятности попадания в целевое подпространство
неинтеллектуальными средствами. Почему, собственно, в распознавании
дизайна и интересны сложные функции: при определённых условиях они
позволяют отбросить нулевую гипотезу о неинтеллектуальности
поискового процесса.
Почему функция, определённая в таком пространстве, по необходимости
разрежена?
Это видно из определения сложной функции. Относительно большое
количество функциональной информации, по определению, соответствует
относительной редкости функции в пространстве строк. В свою
очередь, редкость соответствует малому числу синонимов
функциональной строки. Простые функции имеют большое число
синонимов. Интуитивно это понятно, потому что для простой функции
размер целевого подпространства относительно велик, так как
существует множество способов обеспечить функцию. Например, функцию
пресс-папье обеспечивает любой достаточно тяжёлый предмет.
Напротив, в случае сложных функций число синонимов и размер
целевого подпространства малы. Например, функцию извлечения
квадратного корня обеспечивает сравнительно малое число
конфигураций материи: логарифмическая линейка и персональный
компьютер.
Проиллюстрируем эти соображения на простом примере, который мы
позаимствуем из замечательной лекции Стивена Майера.
Велосипедный замок позволяет установить кодовую комбинацию цифр,
которая его открывает.
Итак, функция кодовой комбинации цифр -- открывать замок. В данном
случае:
- А = {0,1,...,9}, |A| = 10.
- |Ω| = 104.
- |Tf| = 1.
- If = 4 log210 ≈ 13.3 бит.
- |Ω| = 105.
- |Tf| = 1 (число функциональных комбинаций не изменилось).
- If = 5 log210 ≈ 16.6 бит (количество функциональной информации возросло).
В случае сложных функций размер |Tf| целевого подпространства (число синонимов функциональной строки s) с ростом длины строки L растёт медленнее, чем взрывается размер |Ω| пространства возможных строк:
O(|Tf(L)|) < O(|Ω(L)|).
Попросту говоря, с увеличением длины строки экспоненциально растет число нефункциональных строк.
Кстати, Douglas Axe во время оно показал, что для белкового домена средних размеров (если не ошибаюсь, ~150 АА) отдельно взятого белкового семейства (фермент β-лактамаза), редкость функциональных строк оценивается отношением в 1 функциональную строку на каждые 1077. Причём максимальное число организмов, когда-либо живших за всю историю биосферы, в предположениях, благоприятных для эволюционной парадигмы, Майер оценивает как 1040 ≈ 2133 (более оптимистичная для эволюции оценка, предложенная Джузеппе Пуччио, в 2140 организмов превышает оценку, которую приводит Майер, в 27 = 128 раз). Если использовать оценку Майера, то получается, что доля состояний, которые теоретически могли быть просмотрены эволюцией, за всю её славную и неповторимую историю, в процессе поиска функциональной аминокислотной строки лишь для β-лактамазы, составляет 1040/1077 = 10-37. Для осознания масштаба стоящих перед эволюцией задач надо иметь в виду, что размер протеома одноклеточной E. coli оценивается в 1620-2260 различных типов белков.
Escherichia coli (E. coli)
Как-то многовато для незатейливой схемы RV+NS...
|
</> |