Генофонд европейцев и Admixture
andvari5 — 16.11.2025

Арт отсюда
Больше полутора лет назад я впервые поработал с инструментом Admixture. Это профессиональная утилита, используемая генетиками для выявления смешанности той или иной группы. Как и другие инструменты типа РСА, QpAdm и F4, он фигурирует в различных научных работах и позволяет понять специфику древних и современных геномов. Если простыми словами, то примерно так:
Admixture позволяет разбить геном на компоненты в зависимости от заданного количества. Алгоритм работает напрямую с аллелями и высчитывает статистические связи между ними. Например, представим, что мы взяли геномы каких-нибудь бразильцев и задали количество предковых компонентов - 3. Программа должна выделить африканскую, индейскую и европейскую составляющие. Кроме того, можно делать контролируемый анализ, когда часть образцов заранее помечается как источники, а остальные рассматриваются как смесь этих источников. Например, к геномам бразильцев мы добавили коренных индейцев, коренных африканцев и коренных европейцев. Они будут рассматриваться как чистые компоненты, а остальные - как их смесь.
"ADMIXTURE — это программный инструмент для оценки максимального правдоподобия индивидуальных предков из мультилокусных наборов данных генотипов SNP. Он использует ту же статистическую модель, что и STRUCTURE, но вычисляет оценки гораздо быстрее, используя быстрый алгоритм численной оптимизации.В частности, ADMIXTURE использует метод блочной релаксации для поочередного обновления параметров частоты аллелей и доли предков. Каждое обновление блока выполняется путем решения большого количества независимых задач выпуклой оптимизации, которые реализуются с помощью быстрого алгоритма последовательного квадратичного программирования".
Вникнуть в особенности алгоритма тогда мне помог Сергей Козлов,
который много лет работает с ним и другим софтом для генетических
исследований.Тот мой опыт работы с адмикчей остался в прошлом. Хотя
я периодически и планирую оживить старый ноут, накатить на него
линукс и установить софт. Как бы то ни было, кое-какую информацию с
результатами расчетов я себе сохранил. Например, помимо прочего, я
прогонял большой датасет с данными жителей различных европейских
регионов, последовательно выделяя несколько компонентов - от
двух до девяти. Ах, да, стоит сказать, что в Admixture есть
два варианта, как провести анализ. Контролируемый и
неконтролируемый. Контролируемый, это когда вы сами какие-то группы
помечаете как источники, а программа определит вес каждого
источника в оставшихся выборках. Например, можно добавить к
современным образцам всяких ямников, мезолитических охотников,
анатолийских земледельцев и пометить их как источники, а затем
посмотреть, как они распределятся у современных групп. Второй
вариант - неконтролируемый. Это когда алгоритм сам выявляет
источники, ориентируясь только на заданное вами их количество.
Сегодня я покажу результаты неконтролируемого анализа. Я задавал
лишь число компонентов, а утилита выявляла их или их примесь сама.
Для этого я использовал большой набор с европейскими группами - от
Ирландии до Урала. Самые восточные выборки - это ханты, манси.
Это значительное количество индивидуальных образцов, которые можно объединить в большое количество выборок, которые я, в свою очередь, слил в различные группы по этническому или языковому признаку. Иначе говоря, есть группа уральцев, куда вошли выборки с финно-угорскими образцами, группа балтов с латышами и литовцами, группа с русскими выборками и т.д. Не обошлось без обобщений и упрощений. Например, басков я объединил с романцами, чтобы они не болтались одиноко. Думаю, проще начать рассказ про этот эксперимент, должно быть наглядно и понятно.
Два компонента
При К=2, т.е. при заданном количестве предковых компонент в количестве двух, алгоритм выделяет два условных полюса, которые можно назвать восточным и западным. Т.е. два компонента, на которые разбивается каждый образец. Или не разбивается, в зависимости от специфики образцов и компонентов.
Восточный нельзя приравнять к азиатскому, хотя в некоторой степени он может отражать и азиатское влияние. Но в большей степени, видимо, сибирское - и древнее, и недавнее. Максимум восточного компонента - у манси. Максимум западного - у сардинцев. На примере ниже группы с максимумами компонентов, а также одна промежуточная с примерно равным распределением.

Но стоит сказать, что групп с количеством восточного компонента
более 50% вообще очень мало. Проще показать это на графике,
используя vahaduo. Картинка кликабельна.

Здесь можно увидеть, как использованные выборки (один значок - одна выборка) вытянулись в диагональную линию. На концах этой линии - группы с максимумами восточного или западного вклада. Далеко слева сверху - группа с наибольшим восточным компонентом. Это манси. Они заметно удалены ото всех. Затем по убыванию восточного компонента идут различные тюркские и уральские группы. Большая часть европейских выборок кучкуется слева снизу, показывая высокие значения западного компонента. Единственное исключение - русские. За счет северных русских групп они несколько более растянуты. Самая восточная русская выборка - из Лешуконского района Архангельской области. Здесь западного компонента только 67%.
Можно вычислять евклидовы дистанции от отдельных выборок до остальных. Точность сравнения при таком количестве компонентов невелика. Например, для литовцев из Северной Жемайтии это будет означать то, что они будут слабо отличаться от румынов, греков, болгар, шотландцев. Что, конечно же, не так.
Три компонента
При К=3 мы видим, что восточный компонент не сильно меняется, а вот западный разделяется на два, который можно назвать северным и южным. Восточный по-прежнему на максимуме у манси (95%) и на минимуме у сардинцев (0,01%). Северный компонент максимален у латышей (87.5%:) и минимален у понтийских греков (0,08%). Он наиболее выражен у балтских и славянских групп. Южный компонент максимален у сардинцев (96%) и минимален у кольских саамов (0,02%).
Да, кстати, часть восточного компонента также стала меньше. Например, у лешуконских русских его вклад уменьшился до 28%. Но они по-прежнему самая восточная русская группа из имеющихся.
Теперь на нашем графике будет пространство с тремя переменными.
Здесь мы можем увидеть, что большая часть европейцев укладываются в клину юг-север. Романцы, балканцы и южные славяне тяготеют к южному полюсу изменчивости, большая часть славян и балтов - к северному. Германцы (включая скандинавов) и кельты (ирландцы, валлийцы, корнцы) разместились посередине. Зато нижняя часть графика отражает вклад восточной (уральской) компоненты, и популяции с ее вкладом "провисают" вниз.
И в этих трех простых координатах группы начинают куда лучше дифференцироваться друг от друга. Например, наши литовцы из Северной Жемайтии теперь выглядят вот так.

Впрочем, это не обязательно справедливо для всех групп.
Четыре компонента
При к=4 изменения затрагивают в большей степени восточный компонент. Он теперь разделяется на два. Первый максимально выражен у манси, и его можно называть сибирско-уральским. Второй максимально выражен у норвежских саамов (71%). Можно назвать его для удобства северо-восточным или беломорским. Помимо саамов он широко представлен у финнов (68-54%). Посмотрим, как теперь расположатся наши выборки.
График развернулся. Теперь на самом его верху можно наблюдать три наиболее удаленные выборки - две саамские и одну манси. В остальном, вроде бы все ожидаемо. Правда, может вызвать недоумение соседство германцев и некоторых тюркских групп. Но это иллюзия двухмерности. Ведь теперь у нас сразу четыре измерения вместо двух. Развернув график в трехмерном пространстве мы сразу же увидим, что германские группы вообще на противоположном конце от тюрок. А также прекрасно видно два полюса изменчивости носителей уральских языков. На прошлом графике это был скорее однонаправленный вектор.
Пять компонентов
При К=5 выделяется достаточно странный компонент, который
максимально выражен у далеких друг у друга групп - ирландцев (45%)
и удмуртов (55%). Можно пошутить про рыжеволосость, но она тут не
при чем. Еще можно вспомнить, что какой-то из генетических сервисов
(возможно, 23 And Me или FTDNA) зачастую отсыпал представителям
поволжских народов немного Ирландии. Возможно, это был артефакт
такого же рода.
Вообще, мне этот нововыделившийся компонент представляется в
какой-то степени техническим. Или возможно, он отражает какой-то
ковергентный дрейф в таких удаленных группах.
Остальные компоненты также несколько видоизменяются. Северный
становится скорее восточноевропейским. Он в большей степени
представлен у балтов и славян, реже у некоторых финно-угорских
групп. Таким образом проявляется балтославянский (точнее
восточноевропейский) дрейф. Уральский компонент становится в
большей степени сибирским. Он на максимуме, помимо манси, у татар,
башкир, марийцев. Беломорский, помимо саамов, финнов и северных
русских, в остальных группах представлен слабовато. Южный теперь
можно назвать скорее средиземноморским - он в большей степени
выражен именно в этом регионе..
Посмотрим, как это все будет выглядеть на графике.

В трехмерном пространстве, кстати, хорошо видно, что
финно-угорский субстрат у северных русских при таком количестве
компонентов связан с носителями беломорского, а не сибирского
компонента. Интересно, что несмотря на наличие этого странного
ирландско-удмуртского пятого элемента компонента,
это никак не мешает хорошо дифференцировать ирландцев и удмуртов.
Разделяются они весьма хорошо. На примере ирландцев.
Шесть компонентов
При к=6 картина меняется, становится более упорядоченной и
логичной. Странного компонента, выраженного одновременно у удмуртов
и ирландцев, теперь нет. Какие шесть составляющих теперь
выделяются?
- Восточноевропейский компонент с максимумом у литовцев Северной
Жемайтии (67%).
- Средиземноморский с максимумом у различных групп греков (ок.
70%).
- Атлантический с максимумом у французских (70%), испанских
басков (66%), а также ирландцев (64%). В меньшей степени
представлен у кельтских и германских групп, а в минорном количестве
встречается и в Центральной Европе.
- Беломорский с максимумом у саамов (ок 70%).
- Уральский с максимумом у удмуртов (87%). В меньшей степени
встречается в соседних группах.
- Сибирский с максимумом у манси (79%).
Посмотрим, как это все проявит себя на графике.
Теперь кельты достаточно хорошо отделяются от германцев. Хотя
некоторые германоязычные группы тоже попали близко к кельтскому
облаку - оркнейцы, шотландцы и одна из английских выборок. Почему
так, думаю, объяснять не нужно.
Семь компонентов
При к=7 видим следующие компоненты:
- Беломорский с максимумом у норвежских саамов (ок. 70%).
- Восточноевропейский с максимумом у северных жемайтов (69%).
- Сибирский с максимумом у манси (77%).
- Уральский или скорее "удмуртский" с максимумом у удмуртов
(84%).
- Марийско-чувашский с максимумом у марийцев (74%).
- Средиземноморский с максимумом у греков (ок. 70%).
- Атлантический с максимумом у французских басков (72%).
Смотрим график.
Можно увидеть, что балты по-прежнему формируют свой отдельный полюс. Балтославянский дрейф здесь выражается более, чем отчетливо. Но интересны также клины изменчивости, которые можно увидеть на трехмерных изображениях. Одна из них - это балто-балканская, которая идет от балтов через славян к балканцам. Еще одна идет от западных славян через германцев и кельтов к баскам. Ее можно назвать центральноевропейско-атлантической. Отдельная клина соединяет романские группы и басков. Несколько клин изменчивости есть для разных уралоязычных групп и их соседей. Про каждую из этих клин можно расписывать довольно долго, но я боюсь, что не хватит места. Поэтому перейдем к следующему количеству компонентов.
Восемь компонентов
При к=8 выделяются следующие компоненты.
- Средиземноморский с максимумом у греков (ок.70%).
- Сибирский с максимумом у манси (76%).
- Беломорский с максимумом у восточных финнов Финляндии (67%).
- "Удмуртский" с максимумом у удмуртов (82%).
- Восточноевропейский с максимумом у северных жемайтов (71%).
- Марийско-чувашский с максимумом у марийцев (71%).
- Атлантический с максимумом у французских басков (69%).
- Саамский с максимумом у саамов Норвегии (95%).
График постить не буду, он не сильно изменился. Оставлю его для
последней итерации
Девять компонентов
При к=9 появляется новый компонент, который можно было бы назвать в полной мере восточным. Но до восточноазиатского, пожалуй, не дотягивает. Он заметно представлен у башкир, но и там его лишь немного больше сорока процентов. Довольно заметен он у различных групп татар (от 39 до 12%), а вот у остальных европейских групп - и того меньше. Остальные компоненты остались прежними.
Теперь перейдем к последнему количеству компонентов.
Десять компонентов
Это количество в текущем датасете кажется наиболее информативным.
Пожалуй, перечислю все полученные компоненты.
- Балтийский - максимален у литовцев и латышей. Наибольшее
значение 66% у литовцев Северной Жемайтии.
- Восточноевропейский - максимален у восточных славян, мокши
и эрзи. Наибольшие значения у южных русских, восточных украинцев и
южных белорусов ( 30-33%).
- Атлантический - максимален на Атлантическом побережье
Европы. Максимум у французских басков (59%).
- Средиземноморский - велик на средиземноморском побережье,
особенно у сардинцев (60%).
- Беломорский - максимален у финно-угорских групп
вокруг Белого моря. Наибольшее значение у восточных финнов
(67%).
- Саамский. Максимален у саамов. У норвежских 94%, у кольских
53%. В количестве менее 10% присутствует у множества других
групп.
- Марийский. Больше всего у марийцев (68%), но много и у
чувашей (46-58%). Есть у татар (9-14%), у остальных в следовых
количествах.
- Удмуртский. Максимум у удмуртов (79%), но есть и у
коми (12-27%), у остальных меньше 10%.
- Сибирский. Максимум у манси (94%).
- Последний компонент, пожалуй, лучше назвать просто
восточным. Его максимальное количество отмечено у башкир (48%),
заметно меньше его у разных групп татар, а у остальных в следовых
количествах.
Первое, что обращает на себя внимание - новый компонент, который
я здесь назвал восточноевропейским. До этого он скрывался под
балтийским, но введение нового количества переменных позволило
выделить и его. Можно было бы назвать его восточнославянским, ведь
сильней всего он выражен у восточных славян. Однако его присутствие
в значительных количествах у мокши и эрзи намекает, что лучше
избавиться от этнических определений.
Теперь я покажу несколько выборок и продемонстрирую, как эти
компоненты распределяются.

Здесь я ранжировал по балтийскому компоненту. Видно, что он заметно
повышен у балтских групп - латышей и литовцев. Тем не менее, в том
или ином виде он присутствует у всех групп на изображении. Но
только у балтов его от 50% и больше. Единственное исключение -
южные аукштайты. У них его порядка 47%. Второй, оранжевый,
компонент - восточноевропейский. И он тоже много у кого
присутствует. И у балтов в том числе. Однако больше всего его у
славян и мордвы.
Интересно соотношение балтийского и
восточноевропейского компонентов. У балтов оно всегда
одинаковое. Балтийский компонент преобладает над
восточноевропейским. Южные аукштайты здесь не исключение - у них
ровно то же соотношение, что и у остальных балтов. У славян
соотношение этих двух компонентов иное. Восточноевропейский
преобладает над балтийским. Но есть два исключения. Это северные
белорусы и островская выборка русских Псковской области. У них
балтское соотношение балтийского и восточноевропейского. По всей
видимости, это указывает на балтский субстрат в этих группах. У
всех остальных славян, без исключения, соотношение компонентов
отличается от балтского. То же самое мы можем видеть у эрзи с
мокшей. Мало того, что у них очень много восточноевропейского
компонента (на уровне славянских групп), но и его соотношение с
балтийским тоже небалтское.
"Славянское" соотношение балтийского и восточноевропейского
можно увидеть и у западных, и у южных славян. А также у групп,
испытавших славянское влияние. На этом изображении есть выборка
молдован, которая также демонстрирует то же сочетание. "Балтское"
сочетание, помимо двух славянских групп, мы видим также у эстонцев
и финнов. У последних, правда, почти нет восточноевропейского.
Интересно, что латыши отличаются от литовцев немного повышенным
значением беломорского компонента. Видимо, это можно
рассматривать как проявление ливского и иного финно-угорского
субстратов. Беломорский компонент сильно выражен у финнов и весьма
заметен у северных русских (для примера мезенская выборка).
Атлантический компонент повышен у эстонцев и финнов, а также
более заметен у поляков и у западных украинцев. У последних, а
также молдован, заметно повышен средиземноморский компонент.
Выборку из Закарпатья я включил, потому что западные украинцы будут
отличаться от восточных довольно заметно. Восточные и северные
будут схожи с южными русскими и южными белорусами.
Остальные компоненты достаточно минорные. Разве, что восточный в сравнении с другими группами на изображении повышен у эрзи с мокшей.
Теперь можно поместить всех на график и снова взглянуть на него. Я внес некоторые пояснения.
Слева сверху мы видим оранжевые квадратики. Это балты. И
они довольно компактно расположились, показывая плавную
изменчивость. Исключений из этой плавной изменчивости два. Это
латыши - они смещены вниз, вероятно, из-за легкого финно-угорского
субстрата. Второе исключение - южные аукштайты. Они далеко оторваны
от основного пула балтских групп. Может из-за взаимодействия со
славянами, а может какие-то особенности древнего ятвяжского
населения так проявляются - сложно сказать. Однако, помним, что при
этом они не утрачивают балтских особенностей в компонентах.
Теперь смотрим на красный овал. В нем помещается большая
часть восточнославянских групп - белорусов, русских, украинцев,а
также поляки (сиреневый крестик). Причем помещаются очень
компактно. Но при этом восточнославянская изменчивость этим
овалом не ограничивается. Справа можно увидеть довольно много
голубых треугольников украинских групп. Это, в основном, западные
украинцы и часть центральных. Здесь идет тренд на увеличение
условно южных компонентов и большую близость с
центральноевропейскими и южнославянскими группами. Если посмотрим
слева от восточнославянского ядра, то увидим сразу несколько
выбивающихся групп. Это северные белорусы и пара псковских выборок.
Все они резко оторваны от восточнославянского ядра по направлению к
балтам, что, вероятно, указывает на балтский субстрат. Интересно,
что островская выборка при этом оказывается даже более "балтской",
чем южные аукштайты. Если посмотрим вниз от восточнославянского
ядра, то чуть в отдалении увидим множество серых треугольников. Это
центральные русские группы. Кроме того, там же, очень близко к
восточнославянскому ядру, расположены два синих треугольника - эрзя
и мокша. А уже заметно ниже длинный овал с северными
русскими группами. В него также попала пара групп
коми.
А уже ниже синий овал с надписью - западные уральцы. Под этим условным названием скрываются различные финны, карелы и близкие к ним народы. Далеко в стороне, справа, расположен другой синий овал восточные уральцы, где удмурты, марийцы, манси, саамы.
В остальном, следует помнить про то, что двухмерность картинки не всегда отражает реальность. Выше на изображении может создасться впечатление, что тюркские и германские группы расположены недалеко, однако это иллюзия двухмерности. В трехмерном пространстве можно увидеть, что они на противоположных концах.

В общем, как-то так. Просто хотелось сохранить и визуализировать эту информацию.
Ах, да. Еще можно кое-что интересное разместить. Выше речь шла о выборках и их усредненных значениях. Однако индивидуальный разброс - тоже вещь интересная. Например, если разместить индивидов из пары восточноукраинских и пары южнорусских выборок, то они сформируют два облака. Центроиды этих облаков будут расположены близко, но все же их вполне можно отличить. Однако индивидуальный разброс - это два перекрывающихся облака.

Другой пример - северные белорусы и литовцы из Южной Аукштайтии. Их средние хоть и близки, но различаются еще сильней, чем у восточных украинцев и южных русских. Однако на индивидуальном уровне мы также будем видеть перекрытие.

Это лишь два примера пограничных и разных групп. Но если бы я использовал все время только индивидуальные образцы, то это во-первых, ухудшило визуализацию, а во-вторых, это была бы куча перекрывающихся облаков, плавно перетекающих друг в друга генофондов. Но можно попробовать показать это на примере индивидов - литовцев, латышей, русских, украинцев и белорусов.
Здесь можно увидеть большую зеленую клину литовских образцов с включением латышей, показанных оранжевыми квадратами и длинную красную клину русских. А в середине этой галочки перекрывающиеся облака русских, украинских, белорусских и литовских образцов.
Примерно с середины русской клины, чуть дальше лейбла Ru начинаются уже северные русские образцы, которые демонстрируют переход к другой грани изменчивости. Кажется, будто в середине все перемешаны и ничего не понятно. Но это не так, выше на графиках с выборками я уже показывал, что они имеют вполне упорядоченную структуру с отчетливо читаемыми региональными тенденциями. Зато здесь, собственно, видно, что такое популяция, что такое разброс индивидуальных значений, и как это все в Восточной Европе друг с другом связано на конкретных примерах. Можно, кстати, показать другой ракурс этого графика.
Здесь красная и зеленая клины сжаты, зато теперь заметен нижний "хвостик" из украинских индивидов. Это переход от восточных к западным областям Украины.
Еще стоит отметить, что вот такие перекрывающиеся облака индивидов, как и индивидуальная изменчивость - это нормально. Так и должно быть. Потому, что люди не клоны. И вовсе не обязательно это будет говорить о каком-то смешанном происхождении уклоняющихся индивидов. Мне на собственном опыте довелось видеть крупные выборки из очень локальных местностей, где о сколь-нибудь значительном притоке извне за последние пару веков говорить не приходится. И там тоже была вполне нормальная индивидуальная изменчивость. И там тоже индивиды образовывали довольно крупное облако, а не кучку вокруг центроида. Но сам центроид, усреднение, при этом было вполне себе типичным для региона.
На этом, пожалуй, закончим сегодня.
|
|
</> |














Курсы повышения квалификации педагогов: новые подходы и цифровые технологии
Про монстров спорта
Без названия
Интерьеры
Свечи и первая праздничная коллекция от Меган
Assassin’s Creed IV: Black Flag
+23
По Малому Золотому Кольцу или как устать от отдыха. Часть III. Рыбинск.

