84. Популярно о полногеномном изучении ассоциации (GWAS)

Учитывая тематику моего блога можно было бы ограничиться только результатами GWAS в отношении сексуальной ориентации. Но этот подход лежит в основе активно рекламируемых коммерческих тестов на генетическую предрасположенность к различным заболеваниям и на этническое происхождение. Поэтому попробую рассказать о GWAS в более широком контексте. Предупреждаю, материал достаточно сложный.
GWAS основан на генотипировании очень большого числа (от нескольких сот тысяч до миллиона) распределенных по всему геному однонуклеотидных полиморфных маркеров - SNP (single nucleotide polymorphism). Напомню, что SNP, как правило, имеет два варианта (аллеля). Если это, например, гуанин (G) и тимин (T), то такой SNP обозначается как G/T, а его возможные генотипы соответственно – GG, GT и TT.
Часто применяемый дизайн GWAS это сравнение двух групп (в одной люди с изучаемой болезнью/признаком, вторая - контрольная). Для каждого человека из обеих групп определяют генотипы всех SNP, то есть сотни тысяч генотипов на человека. Затем частоты аллелей для каждого SNP просчитываются в обеих группах. Если частоты какого-то SNP достоверно отличаются в сравниваемых группах, то это рассматривается как ассоциация данного SNP с изучаемым заболеванием/признаком. Так как имеет место множественное сравнение, вместо обычного порога достоверности Р<0.05 используется P<5×10^-8 (минус 8-ой степени).
Напомню, что наличие ассоциации не обязательно означает причинно-следственную связь. Приведу классический пример - частота рака легких повышена у курящих, а также у людей много пьющих кофе. То есть, рак легких ассоциирован как с курением так и с потреблением кофе. Однако в первом случае связь причинно-следственная – рак вызывается канцерогенным действием вдыхаемых при курении веществ. Во втором же случае ассоциация непрямая, она обусловлена тем, что среди тех, кто много пьёт кофе большинство является курильщиками. То же самое касается результатов GWAS. Ассоциация с конкретным SNP также может быть непрямой и это связано с неравновесным сцеплением (linkage disequilibrium - LD). Полагаю, что последний термин вряд ли знаком большинству читателей, но с ним нужно обязательно познакомиться, так как неравновесное сцепление это краеугольный камень GWAS.
Для начала на примере SNP уточним два термина – генотип и гаплотип (рис. 1). Генотип это аллели одного и того же SNP на обеих родительских хромосомах. Гаплотип это «цепочка» аллелей разных SNP, расположенных вдоль одной хромосомы (либо материнской либо отцовской).

«Гапло» означает уменьшенный в два раза, одиночный. Хромосомный набор соматических клеток диплоидный (46 хромосом), а у сперматозоидов и яйцеклеток он гаплоидный (23 хромосомы, по одной из каждой пары).
При формировании сперматозоидов и яйцеклеток в процессе мейоза происходят обмены (рекомбинации) участков гомологичных хромосом, и, следовательно, родительские гаплотипы разрываются. На рис.2 показано, что происходит с гаплотипами матери (розовый цвет) и отца (голубой цвет) при наследовании в трех поколениях. У их потомков от гаплотипов родоначальников остаются фрагменты значительно меньшего размера, но в самих этих фрагментах сохраняется первоначальная цепочка аллелей.

В популяции процесс разрушения первоначальных гаплотипов идёт сотни и тысячи поколений (рис.3).

В верхней части рисунка 3 показаны хромосомы основателей популяции (группа людей, мигрировавших в ранее незаселенное место), а ниже хромосомы их наследников в 100-ом и 1000-ом поколении. На них одинаковым цветом обозначены участки, сохраняющие фрагменты гаплотипов предков. Чем больше возраст популяции, тем короче эти фрагменты, но полностью они не исчезают. Находящиеся в них аллели наследуются совместно и именно по отношению к ним был введен термин неравновесное сцепление (linkage disequilibrium). Почему такое название, поясню чуть ниже.
Размеры участков неравновесного сцепления и их паттерн отличаются в различных популяциях. Это зависит от размера самой популяции, количества её основателей и числа поколений. Африка это колыбель человечества. Предки европейских и азиатских популяций мигрировали оттуда, поэтому у них размеры участков неравновесного сцепления в среднем больше чем у африканцев. На специфике участков неравновесного сцепления в разных популяциях и основываются коммерческие тесты на этническое происхождение. Об этом постараюсь сделать коротенький пост.
Вернемся к непрямой ассоциации. Если GWAS выявил, что один из аллелей участка неравновесного сцепления ассоциирован с изучаемым заболеванием, то ассоциированными являются и все другие его алели (рис.4). А это означает, что под подозрение попадают все гены, находящиеся внутри этого участка. Какой из них связан с заболеванием не так-то просто решить, но об этом расскажу в посте, посвященном результатам GWAS.

Теперь коснёмся терминологии. Поскольку есть неравновесное сцепление (linkage disequilibrium), то понятно, что должно быть и равновесное сцепление (linkage equilibrium). Оба этих термина появились в популяционной генетике в 1960 голу. К сожалению, интуитивно их суть непонятна и, по моему опыту, они трудно «заходят». Хотя я и не специалист в этой области, но аналогичное мнение высказывают и профессионалы. Вот, к примеру, что пишет Montgomery Slatkin из Университета Беркли:
Linkage disequilibrium is one of those unfortunate terms that does not reveal its meaning. As every instructor of population genetics knows, the term is a barrier not an aid to understanding. (Неравновесное сцепление это один из тех неудачных терминов, который не раскрывает своего значения. Как знает каждый преподаватель популяционной генетики, этот термин — барьер, а не помощь в понимании).
Для популяционных генетиков, придумавших оба термина, это было обозначением конкретного математического соотношения между частотами аллелей и частотами формируемых ими гаплотипов. Именно в таком понимании эти термины прочно закрепились в популяционной генетике. Так что когда спустя пару десятилетий, к участкам неравновесного сцепления обратились специалисты из других областей генетики (в частности занимавшиеся картированием генов), уже укоренившиеся термины менять не стали.
О каком соотношении частот аллелей и гаплотипов идёт речь, попробую пояснить в максимально упрощенной форме на примере двух SNP, находящихся на одной хромосоме. SNP1 имеет аллели А и Т, у SNP2 аллели G и С. Количество возможных гаплотипов у двухаллельных SNP равно 2^n, где n число SNP, то есть в нашем примере это 2^2=4. Эти четыре возможных гаплотипа показаны на рис 5. На нём же таблицы с популяционными частотами аллелей SNP, а также частоты их гаплотипов при равновесном сцеплении.

Если SNP1 и SNP2 находятся далеко друг от друга, то кроссинговеры между ними вполне вероятны. Какими бы ни были гаплотипы основателей, множество рекомбинаций в большом числе поколений приведет к тому, что в популяции будут присутствовать все 4 возможных гаплотипа. Частота каждого гаплотипа это вероятность «встречи» образующих его аллелей, то есть произведение популяционных частот аллелей. Вот такое соотношение между частотами аллелей и гаплотипов и было обозначено как равновесное. Аллели SNP1 и SNP2, случайным образом, оказавшиеся на одной хромосоме, сцеплены, но это равновесное сцепление.
Теперь рассмотрим ситуацию, когда SNP1 и SNP2 оказались не просто близко друг от друга, но и внутри фрагмента, который сохранял первоначальную комбинацию аллелей. В этом случае аллели SNP1 и SNP2 оказались вместе неслучайно, они не просто сцеплены, но и вместе наследовались через много поколений. Естественно, что частоты таких гаплотипов будут отличаться от равновесных, где встреча аллелей случайна и определяется популяционной частотой аллелей. Более того, при неравновесном сцеплении некоторые теоретические возможные гаплотипы в реальности могут отсутствовать. К примеру если аллель C (SNP2) есть только на хромосомах с аллелем А (SNP1), то из-за совместного наследования и мизерного шанса на рекомбинацию, в популяции не будет хромосом с гаплотипом Т_С.
Я попыталась максимально упрощенно рассказать о GWAS. Важно еще дополнить, что реально в GWAS определяются только генотипы. Гаплотипы и все остальное это результат анализа генотипов с помощью специальных программ и референс-панелей гаплотипов, появившихся благодаря международным проектам HapMap Project и 1000 Genomes Project. Путем сравнения выбирается гаплотип, наиболее вероятный для выявленных в исследуемых образцах генотипов SNP. Кроме того, в анализ включаются и SNP, входящие в этот гаплотип, но которые в исследовании не тестировали. Это называется импутация (imputation) SNP. К сожалению, превалирование биоинформатики в научных статьях по GWAS делает их довольно сложными для понимания тем, кто не работает непосредственно в этой области.
На GWAS возлагали большие надежды. Полагали, что этот метод окажется эффективным для выявления генетических факторов риска заболеваний, частота которых повышена среди родственников пациентов (сердечно-сосудистые, диабет, шизофрения и многие другие). Эти надежды вроде бы оправдались - выявлено множество ассоциаций. Есть, правда, одно «но» - интерпретация полученных данных далеко не однозначна. Об этом в одном из будущих постов.
EIS-gen
|
</> |