85. Полногеномное изучение ассоциации (GWAS) и полигенная оценка риска

Можно ли на основании генетических тестов достоверно предсказать вероятность развития той или иной болезни? Понятно, что речь идёт о болезнях, где явно прослеживается роль генетики. Среди таковых четко выделяется группа моногенных заболеваний (муковисцидоз, спинально-мышечная атрофия, фенилкетонурия, хорея Хантингтона и множество других). Некоторые из них проявляются уже с рождения, другие в детском, подростковом и даже зрелом (40-50 лет) возрасте. Хотя каждое моногенное заболевание встречается довольно редко, для очень многих удалось идентифицировать ответственные за них гены, часто с помощью анализа сцепления (linkage analysis). Оценки риска моногенных заболеваний достаточно точны, вероятность развития болезни (пенетрантность) при наличии патогенной мутации в соответствующем гене очень высока и может достигать 100%. Например, если ребенок унаследовал от обоих здоровых родителей мутацию deltaF508 в гене CFTR, то безоговорочный диагноз – муковисцидоз.
Вторая группа это распространенные заболевания, у которых на роль генетики указывает их повышенная частота среди родственников. Сюда входят гипертония, заболевания коронарных сосудов, мерцательная аритмия, диабет, шизофрения, болезнь Альцгеймера, биполярное расстройство, рассеянный склероз, болезнь Крона, псориаз и многие другие. В развитии такой болезни совместно участвуют много генов, каждый из которых вносит больший или меньший вклад. Поэтому по отношению к этим заболеваниям используется термин полигенные. Попытки идентифицировать эти гены с помощью анализа сцепления, за редкими исключениями, были малоэффективными, так что особого прогресса здесь не наблюдалось. Все изменилось двадцать лет назад, когда появился новый подход - GWAS (полногеномное изучение ассоциации).
С тех пор параллельно шли два процесса. С одной стороны совершенствовались платформы для генотипирования SNP (single nucleotide polymorphism / однонуклеотидный полиморфный маркер). Если первоначально они позволяли определять порядка 100 тысяч SNP, то на сегодня это уже миллион и более. С другой стороны накапливался массив данных с результатами генотипирования и выявленных ассоциаций. Эти данные собираются в каталог - GWAS Catalog. На 18 февраля 2025 года он включал 7171 публикацию, в которых было выявлено 786898 ассоциаций. Динамику исследований GWAS хорошо иллюстрирует рис.1, правда он из публикации 2023 года, поэтому данные на нем заканчиваются 2022 годом. Голубым цветом обозначено число публикаций опубликованных за год, зеленным - среднее число выявленных локусов, а красным – число исследованных (размер образца -sample size). В первые годы применения GWAS средний размер образца составлял несколько тысяч человек, затем сотни тысячи, а в последние годы уже миллион и больше (красная линия на рис.1). Пока рекорд за исследованием, в котором изучали генетические варианты, влияющие на рост - почти 5.4 миллиона человек (более 12 тысяч ассоциаций).

На первый взгляд, прогресс фантастический. Однако давайте посмотрим на конкретную значимость этих результатов.
Задача GWAS выявить аллели SNP, ассоциированные с изучаемым заболеванием. Результат GWAS представляют как число таких SNP и/или число локусов, по которым эти SNP распределены (локусов обычно меньше). У полигенных заболеваний их оказалось довольно много, как правило, более сотни. Результаты GWAS для некоторых из них приведены в таблице 1. Вполне вероятно, что приведенные числа могут возрасти.

Напомню, что ассоциация не означает что это причина болезни. Для небольшого числа ассоциаций выявленных в GWAS удалось определить их связь с изменениями в конкретных генах. Для подавляющего большинства установить истинную причину не удалось.
Каждый ассоциированный аллель вносит определенный вклад в
повышение риска заболевания. В статистике это обозначается как
размер эффекта (effect size). Обычно для определения размера
эффекта используют отношение шансов - Odds Ratio
(OR), которое является «прокси» показателем
риска. Напомню что:
- шанс это отношение числа исследуемых, имеющих
определенный признак, к числу исследованных, у которых этот признак
отсутствует;
- отношение шансов это отношение шанса иметь
признак в одной группе к аналогичному шансу в другой.
Поясню это на примере SNP G/T. В таблице 2 буквами (A, B, C, D) обозначено число аллелей G и Т у пациентов и в контроле.

Допустим аллель G оказался ассоциированным с заболеванием, то
есть его частота у пациентов достоверно (P<5×10^-8) выше, чем в
контроле:
А/(А+В)
> C/(C+D)
Чтобы оценить эффект аллеля G определим шансы иметь аллель G в
обеих сравниваемых группах, а затем возьмём их отношение:
шанс
в группе пациентов = А/В.
шанс
в контрольной группе = C/D.
OR
= отношение шансов = (A/B) / (C/D)
Теперь посмотрим на реальный размер эффекта аллелей SNP, которые были выявлены в GWAS. Оказывается, он довольно маленький. Приведу в качестве примера результаты GWAS в отношении болезни Крона (рис.2). На оси Х показана популяционная частота аллелей, а на оси Y размер их эффекта (Odds Ratio). Ассоциированные с заболеванием аллели обозначены цветными кружочки, а пересекающие их вертикальные полоски обозначают доверительный интервал OR. Разная окраска использована для того, чтобы различить аллели, выявленные с помощью GWAS в разных исследованиях.

Из рисунка видно, что только 4 аллеля повышают риск болезни Крона более чем в 2 раза, у подавляющего большинства риск находится в интервале 1.1-1.4. Аналогичная ситуация и с другими заболеваниями. К примеру, для шизофрении средние значения OR генетических вариантов, выявленных в GWAS 1.04 – 1.23. Именно для выявления малоэффективных вариантов и потребовалось увеличить число исследуемых людей до сотен тысяч и более.
Когда говорят о значении GWAS, то приводят два аргумента. Первый это то, что выявленные ассоциации позволят установить неизвестные ранее механизмы развития болезни и соответственно выйти на новые подходы к их лечению. В качестве примера приводят болезнь Крона, для которой выявлена ассоциация с сигнальными путями интерлейкинов IL-12/IL-23 и на этом основании предложен новый подход для её лечения. Было еще несколько историй успеха. Тем не менее, биологическое значение подавляющего большинства выявленных ассоциаций остается неизвестным.
Второй аргумент это возможность более точного предсказания риска заболевания у конкретного индивидуума. С этой целью предпринимаются попытки для каждого заболевания разработать специальный показатель – PRS (polygenic risk score/полигенная оценка риска). Его принцип показан на рис.3. Первая стадия это GWAS summary statistics. На основании данных GWAS отбираются аллели с наибольшим эффектом, причем как повышающие (+) так и понижающие (-) риск заболевания. В данном примере это аллели четырех SNP. Вторая стадия это генотипирование отобранных SNP у индивидуумов, для которых определяется PRS. Третья стадия - расчёт PRS.

В настоящее время статистики продолжают «играться» с разным числом и комбинациями ассоциированных аллелей, пытаясь получить оптимальный вариант PRS. Пока это все на стадии научных исследований, тем не менее некоторые частные компании уже начали предлагать своим клиентам услуги по определению PRS. Отмечу, что PRS это оценка вероятности, она вовсе не означает, что болезнь обязательно разовьется.
Хотя GWAS остается достаточно востребованным, тем не менее восторг по его поводу разделяют далеко не все. Стоимость генотипирования 100 тысяч человек составляет примерно 10 миллионов долларов, так что GWAS «пожирает» существенную долю научного бюджета. При этом биологическая значимость большинства выявленных ассоциаций остаётся неясной. Шутят даже, что в результате столь стремительного роста числа выявляемых ассоциаций, в риск заболевания скоро будет вовлечен целиком весь геном.
P.S. Знаю, что текст сложный и скучный. Но тем, кто его осилил, будет проще понять результаты GWAS в отношении сексуальной ориентации, о которых пойдет речь в следующем посте.
EIS-gen
|
</> |