eBiology
progenes — 12.10.2015 Про біоінформатику від біолога для інформатиків на пальцях. Для тих, хто не встиг за польотом думки на. IT ArenaОтже, почнем спочатку.
На Землі проживає купа живих організмів, з яких 86% видів ще не описані взагалі. Біологія, як наука, має справу з гігантським різноманіттям, невеликою кількістю закономірностей, з яких більше виключень, ніж правил. Втім, одне базове правило все ж є - в основі цього гігантського різноманіття лежить комбінація чотирьох нуклеотидів (А, Т, Ц, Г) з яких складається ДНК. Якщо взяти всю ДНК, яка міститься в біосфері і прочитати, то це буде 5,3 х 10^31 Мб і для запису цієї інформації треба буде 10^21 суперкомпьютерів. Це тільки для того, щоб зберегти цю інфу. Але ця інформація в живих системах розгортається в епічну картину. Робляться перші кроки в розшифровці цього розгортання і для цього треба спеціалісти нового покоління - біоінформатики.
Чим займаються біоінформатики?
Навколо компьютерних методів біологічних обчислень вже формуються певні кластери спеціалізації. Визначення кожного з них (власне біоінформатика, системна біологія, -омікс, обчислювальна біологія) має певні нюанси, які на мій погляд, доволі формальні, бо всі вони перекриваються як в методах, так і в об"єктах досліджень. Наразі біологи називають всіх, хто вміє писати корисні скрипти і програми для потреб біологів, - біоінформатиками.
Ще 10 років тому, коли стало зрозуміло, що зароджується новий фах, були спроби формулювати, що повинні вміти біоінформатики і як їх навчати. На відміну від просунутих користувачів біологів, яким достатньо розібратись в програмі для своїх локальних потреб, біоінформатик повинен не тільки програмувати, а й розуміти всі біоілогічні зв"язки так, щоб він мав змогу самостійно вирішувати глобальні біологічні питання і використовувати для цього обчислювальний потенціал. Тобто очікувалось, що модерний біолог буде і швець, і жнець, і на дуді грець. Втім, реальність виявилась дещо іншою. Насправді такі майстри мультитаскінгу дійсно існують, але це виключення.
В гру вмішались аналітики, і трапився такий вибух кількості даних, якому наразі не можуть дати ради ні біологи, ні програмісти. Тому досі ми все ще спостерігаєм розподіл обов"язків - одні сумлінно розтирають мишачі хвостики в ступці, а інші збирають їх потім на компьютері назад.
Аби зрозуміти, де прикладають свої зусилля програмісти в біології, потрібно згадати базові шкільні знання. Отже, багатоклітинний організм складається з клітин, кожна (за деяким виключенням) містить ядро, яке містить молекули ДНК, яка містить інформацію про будову, розвиток і взаємодію організму з навколишнім середовищем. Всі клітини організму містять ідентичну молекулу ДНК (за деяким виключенням), але в результаті інформація розгортається в кожній клітині індивідуально. На виході з однієї програми получаються різні типи клітин по формі і змісту.
Яким чином відбувається таке індивідуальне розгортання?
Протягом свого життя клітина постійно отримує сигнали ззовні: їжу, гормони та інші сигнальні молекули, інформацю про оточення від сусідніх клітин або від того ж середовища про температуру, освітлення, патогени, тощо (біотичні та абіотичні фактори). Також всередині клітини проходять числені хімічні реакції, змінюючи її характеристики. Тобто клітина бомбардується гігантською кількістю зовнішніх і внутрішніх сигналів. Ці сигнали сприймаються рецепторами на поверхні клітини, або ж фіксуються певними молекулярними сенсорами всередині. Далі відбувається передача цього сигналу до ядра, ніби пінг-понг кулька рухається від станції до станції, переключаючи вмикачі. Одні білки, наприклад, фосфорилюються і активуються, інші навпаки - деактивуються, якісь білки формують комплекси, які також можуть активуватись, або навпаки і так далі. Так чи інакше, цей сигнал доходить до ядра і вмикає роботу генів, продукт яких необхідний для специфічної відповіді на цей сигнал. Кінцевий результат відповіді на сигнал варіює в спектрі від "о, давай розмножуватись" до "прийшов час негайно вмерти".
Ось так, наприклад, виглядає каскад передачі сигналу в імунній клітині, яка зустріла патогена.
Насправді немає значення, що це за клітина (рослинна чи тваринна), ззовні організму чи всередині. Кожна з них містить величезну кількість signal-transduction pathways, які і відповідають за специфічне розгортання генетичної програми в кожній конкретній клітині. Це такий принциповий момент, який треба для розуміння, що таке фенотип (сума характеристик організму). Організм, який ми спостерігаєм в конкретний момент часу - це продукт взаємодії ДНК і зовнішнього середовища.
Тут треба затямити декілька важливих речей. Якщо з якихось причин не надійшов вчасно сигнал, наприклад фолієва кислота або вітамін А, фатально порушується розвиток плода, хоч з ДНК все гаразд. І навпаки, нема рецептору (який закодований в ДНК і мутував), не буде адекватної відповіді на сигнал зовнішнього середовища або вона буде іншою. Оскільки сигналів по кількості і інтенсивності ми можем нарахувати нескінченну кількість, до них повернемось в останню чергу. Спочатку розглянемо те, з чого все починається. З ДНК.
Мені було ліньки малювати якісний мотиватор. Тому будуть просто картинки.
Отже, коли мова йде про ДНК, перед очами стає красива модель подвійної спіралі. Хіміки бачать її як скелетну структурну формулу, фізики, на кшалт Вілкінса і Франклін, побачили ДНК за допомогою дифракції рентгенівських променів, біологи щодня спостерігають розділену в електричному полі ДНК, підфарбувану бромистим етидієм в ультрафіолеті. А інформатики бачать просту послідовність нуклеотидів, при цьому подвійна спіралізованість, водневі зв'язки і навіть друга низка повністью ігноруються. Так що інформатикам можна розслабитись, далі буде все просто, але багато.
Тому що, як я вже сказала, прийшли аналітики і за останні 10 років в прочитках геномів відбулись тектонічні зсуви, хоч після тривалої конкурентної боротьби на ринку поки що перемагає Іллюміна. Дивимось.
Десь в 1990 році (а якщо точніше, то і ще раніше) стартував перший проект прочитки людського геному, який тривав десь до 2003 року, тобто майже 15 років, коштував 3 міліарди доларів. Вже в 2013, тобто позаминулому році за рік можна було прочитати 625 геномів, а в минулому технічні потужності дозволяють прочитати 18000 геномів, а прочитка коштує близько 1000 доларів. Наразі остання версія дозволяє за день прочитувати 45 людських геномів. Досі прочитані геноми акуратно складають в створені для цього бази даних.
Цих буковок назбирали на 3.6 петабаз (15 нулів), а це всього навсього 32000 бактеріальних, 5000 рослинних і тваринних і 250 000 людських геномів. І вже зараз по об'єму інформації тільки людські геноми становлять четверту частину річного ютьюба і це тільки початок.
Тому що тепер секвенаторщики розвернуться по-справжньому. Буквально щодня анонсуються нові проекти. В минулому році британці і саудівська аравія анонсували великі людські популяційні секвенування по сотні тисяч геномів. Ботаніки, ентомологи та зоологи давай собі секвенувати один вид за іншим. А Китай, наразі найпотужніший секвенувальний аутсорсінг, заявив, що навіщо розмінюватись - мільйон геномів і справа в кишені. Очікується, що вже за 10 років четверта частина всієї людської популяції буде з прочитаними геномами. Принаймні технічні ресурси це дозволяють. По ціні це буде як придбати новий мобільнік.
Отже, подобається це нам, чи ні, майбутнє вже стоїть на порозі і грюкає у двері. Треба будуть точно фізичні ресурси для цих бігдата, якийсь захист (я на цьому не розуміюсь), треба будуть біоінформатики, які з цим повинні будуть розбиратись і треба буде нове покоління лікарів, які повинні будуть розумітись на генетичній інформації.
Теперь спустимось на землю і зазирнем за лаштунки біологічної лабораторії.
Для того, щоб прочитати геном, біолог бере свій об'єкт і розтирає в кашу. З людьми обходяться гуманно, беруть рідини організму, які містять клітини, які містять ядро, яке містить ДНК. За допомогою простих маніпуляцій виділяють ДНК (можна навіть в домашніх умовах). Потім ДНК ріжуть в хлам на дрібнюсінкі шматки (10-1000 нуклеотидів) і відправляють в секвенатор. На методі сексенування зупинятись не буду, це тема окремої лекції. Машина випльовує відносно простий, але гігантський текстовий файл, де в кожній четвертій шпальті міститься шматок прочитаної ДНК. Біолог дає цей пазл інформатику і каже - ну ось, тепер збери це все до купи. Складає ручки і задоволено посміхається.
Цей файл FASTQ, як правило, подібний у всіх виробників секвенаторів, тільки за деякими нюансами. Перша шпальта @ містить унікальний послідовності і опціональну інфу, друга - саму послідовність ДНК, третя + опціонально дублює першу (не питайте, варум), четверта - критерії якості, що базується на Phred quality score і трохи варіює у різних виробників. Як ми бачимо на хроматограмі, трапляються випадки, коли машина не може однозначно розпізнати нуклеотид (з різних причин), тому він маркується як менш достовірний.
Припустим, інформатик отримав такий файл. Що з ним робити? Як сладати його в купу? Процес зібрання паззла - називається genome assembling.
Коли геном якогось містера Х одного разу прочитаний і складений, то він називається референтним і збирання нових на його основі - це вже набагато простіша задача. Але якщо досі геном якогось рідкого звіра ніколи не був прочитаний, тоді його треба збирати з нуля, тобто de novo. Це нетривіальна задача. Але почнем здалеку.
Для збирання паззлу, геном треба прочитати декілька разів - скажімо, раз так 10. Тоді прочитані шматки будуть перекриватись. Фактично будь-який алгоритм шукає подібні перекриття по краям, або всередині шматків і склеює їх до купи. Таких алгоритмів наразі є близько десятка і купа асемблерів на їх основі, але нема жодного, який би давав 100% точність. Ефективність есемблінгу залежить від якості самої ДНК, яку надали на прочитку, від структури ДНК (вона містить купу повторів), від самого виду організму (у одних повторів більше, ніж у інших), від помилок, які робить сам прилад. Навіть остання версія людського референтного геному містить помилки. Це те, що намагаються донести до біологів самі інформатики, після того, як склали цю лапшу докупи. Стаття дуже цінна.
Ну ось, з горем пополам геном склали. Це виглядає приблизно так. Ну, і де тут гени?
Наступний крок - знайти гени. Є два варіанти. Для пояснення першого забіжу на крок вперед. З ділянок ДНК, які кодують гени, зчитується РНК. Цю РНК ми можем виділити і прочитати так само, як ДНК. Якщо ми бачим такий прочитаний шматок РНК, то можем бути певні, що цей шматок зчитано з гену, який на момент експерименту був включений і працює. Цей шматок часом називають EST (expressed sequenced tag), нам потрібно тільки знати, що це прочитаний шматок працюючого гену (ПШПГ - щойно вигадала переклад).
Отже, ми берем референтний геном і базу референтних РНК (або ESTs) і робим так званий alignment. Алгоритмів для цього є декілька, найбільш любимий біологами BLAST (Basic Local Alignment Search Tool). Згодом це все можна візуалізувати на геномних браузерах у вигляді карти. Внизу на малюнку скріншот геномного браузера хробачка ценорабдітіс, четверта хромосома, позиція з 120000 по 130000 нуклеотиди, внизу видно зелені смужки aligned mapped ESTs, які перериваються тонкими некодуючими ділянками - інтронами.
Це був легкий шлях пошуку генів в геномі. Справа в тому, що може так трапитись, що ген включається коротко в якійсь одній тканині і більше ніде і ніколи. Тому експериментально ніхто ще РНК для нього не виділив і не прочитав. А ген є. Паралельно з емпіричним методом існує de novo або ab initio gene prediction. На щастя, в геномі вже є цілий ряд відомих features, які можуть вказувати на наявність генів. Наприклад, початок зчитування більшості генів кодується одним і тим самим кодоном ATG. Перед ним, як правило (звісно, з виключеннями), розташована послідовність, яка називається промотор і яка має певні ознаки, наприклад TATA-box. В гені, як правило (звісно, з виключеннями), знаходяться некодуючі ділянки, які як правило (звісно, з виключеннями) починаються з GT і закінчуються AG і в них триплетне зчитування закінчується стоп-кодоном. Отже, алгоритми беруть до увагу вагу кожної такої feature і шукають можливі гени. На браузері такі гени позначені в самому низу блакитними і рожевими смужками. На цій ділянці ми бачим три гени, зчитування яких, до того ж, направлені в різні сторони.
Припустимо, ми знайшли ділянку, яка схожа на ген. Наступне питання - що це за ген? Доки молекулярна біологія розвивалась еволюційним шляхом, діяв принцип - "один ген - один професор". Проф брав собі нескопану ділянку з геном Х і починав потихеньку розгрібати, що це за фрукт. Спочатку знаходився дивний мутант. Його схрещували сто разів, поки не встановлювали його спадковість. Потім шукали довго і нудно конкретний ген. Потім його прочитували. Дивились на продукт і так, і сяк. Ремонтували цей ген або навпаки, брали ціленьку рослину і мутували, аби перевірити, чи це дійсно він викликав такі прояви. Встановлювалась функція (одна або декілька). Генна послідовність акуратно складється в одну з трьох світових баз даних.
Формат усталений вже дуже давно і містить унікальний номер, назву гену, організм, з якого цей ген дістали, публікацію, де цей ген описаний, саму послідовність з фічами та білок, в який цей ген транслюється.
Подальша процедура визначення можливоїфункції генів проводиться так само, як емпіричне передбачання генів за допомогою BLAST, тільки додається інформація про те, наскільки ця ділянка до якого гену подібна (Score і Evalue), а також унікальний номер подібної послідовності і назва гену, якщо вона існує в базі даних. Це все називається genome annotation. Зауважу, що незважаючи на гігантське біологічне різноманіття, гени, як цеглинки ЛЕГО, зустрічаються доволі подібні у різних видів. Вважається, що якщо ген Б у пшениці подібний до раніше вивченого і добре описаного гену А з арабідопсису, то у пшениці він відіграє приблизно ту саму роль (демонічний регіт, бо це скоріш за все не так). В будь-якому випадку, цей натяк на функцію - відправна точка для формулювання гіпотези.
Отже, у мене є шматки геному (тут scaffold), їх довжина і подібність до колись раніше описаних кимось генів. В наведеному прикладі, як ми бачим, принаймні 4 шматки геному якось анотовані, втім, мій сосбистий досвід з Evalue говорить про те, що ця аннотація близька до сміття, крім якось гену з арабідопсису, який, до того ж, unknown.
Насьогодні анотація геномів і транскриптомів (про них буде пізніше), доволі відладжена процедура. Наприклад, юзерфрендлі BLAST2GO. Найбільша проблема анотації це те, що третина генів не описані взагалі, найбільша частина описана по простій подібності, а епоха "один ген - один професор" стає не модна.
Це був вступ. В цей момент асистентка на лекції показала мені карточку, що залишилось 15 хвилин. Завтра поговорим про те, що нам може розказати геном і, якщо встигнем - про транскриптом. Потім буде протеоміка і метаболоміка і на закуску феноміка.
|
</> |