Воркшоп по биоинформатике

топ 100 блогов progenes21.04.2011 Я предполагаю, что меня читают биологи и информатики. Поскольку я сейчас столкнулась с феерическими расчетами, от которых у меня волосы на загривке вздыбились, считаю, что будет неплохо, если я расскажу причастным где впредь быть предельно внимательным. Я, к сожалению, не могу дотянуться до того парня, который это посчитал, чтобы надавать ленейкой по рукам. Но должна сказать, что это сервис, претендующий на серьезный.

Больше чем месяц назад я получила результаты и, помнится, даже всхипнула от ужаса. Дело было вот как.

Перед биологом стоит задача - сравнить экспрессию генов в нескольких тканях. Для этого надо выделить РНК и каким-то из методов определить, с каких генов эта РНК считалась и в каком количестве. Методов есть несколько. От нозерна до микрочипов. Самый модный - это секвенирование 454. О нем и пойдет речь.

Я не буду вдаваться в подробности, что за ткани я анализирую, скажу только, что этой ткани столько, что невооруженным глазом не видно, нарубили лазером под микроскопом. Выделили РНК в количествах на пределе воображения и отправили на прочитку (секвенирование). Это приблизительно так, как сейчас читают геномы, только не ДНК, а РНК. Причем прочитка - это полноценный сервис, который включает все. На выходе, как я уже упоминала 300 гигов информации: сырые сиквенсы, сбивка в контиги, скаффолды и унигены, бласты, функциональная аннотация по геномной антологии, метаболитических путях, визуализация, статистическая обработка и дифференциальный анализ. Все растыкано по 2000 тыщам файлов. Задача биолога теперь все ОСМЫСЛИТЬ и интерпретировать и сделать выводы, как же отличается работа генов в разных тканях и почему.

Я сузила сначала задачу и из вороха файлов нашла исходник в экселе: сравнение генной экспрессии в двух (из 48ми) тканях. Теперь внимание и пристегнитесь. Результаты сравнения представлены в виде log2 значения соотношения экспрессии генов в ткани 1 vs. 2. Просто настолько, что можно понять и идиоту, верно? Значения колеблются от -15 до плюс 15 (это уже log2). Огого, сечете разницу в экспрессии? Всех генов несколько десятков тыщ.

В этом месте меня подвело банальное любопытство. Что ж это за ген такой, у которого разница в работе в двух близлежащих тканях 214? Роюсь в ворохе файлов и нахожу сырые результаты. И тут, друзья, у меня глаза на переносице и сбежались. Потому что я знаю, что это за сырые значения. А это всего навсего количественный подчет ШТУК КУСКОВ РНК, которые принадлежат одному гену. Держитесь теперь крепче, пример из жизни.

Ген Х. Логарифмированное значение соотношения экспрессии в тканях 1 vs. 2 равно 14,72. Сырые данные в студию. В ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 27 кусков. Формула расчета log2(27:0). Что, съели касатики?!!! Говорите на ноль нельзя делить? Ну нельзя так нельзя (хотя в результатах стоит ноль). Я прикинула, как могли бы рассуждать те, кто уныло смотрит на ноль. Ноль надо заменить на число, отличное от нуля. Я начала тупо подставлять и проверять логарифмом, как у них 14,72 получилось. Оказалось, что 0 приравняли до 0,001. log2(27:0,001)=14,72

Если вы еще не ржете, посчитайте, какое значение log2 будет, если в ткани Nr.1 насчитали 0 (ноль) кусков, в ткани Nr.2 насчитали 2 (два) куска. То есть вы догадываетесь, куда можно засунуть эти 300 гигов и ограничиться одной таблицей в экселе, да?

Проблема в том, что редкий биолог интересуется сырыми данными, если сервис поставил уже готовое соотношение в красочных схемах и диаграммах. И редкий информатик интересуется особенностями того, что ему поручено посчитать. Для него это голые абстрактные числа, а для меня это штуки кусков РНК. Особенно печально, если биолог мало знает о проблемах и недостатках того метода, которым хочет что-то проверить. После таких ляпов у меня возникли подозрения к алгоритмам сбивки в контиги (которые я встречала в других случаях), к проблемам аннотации (с которой долбилась годами). Эта же проблема также касается и анализов всяких там аффиметриксов и прочих биочипов.

Вырасту большой и научусь программированию сама.

Оставить комментарий

Предыдущие записи блогера :
Архив записей в блогах:
Дважды мама. 24.10.10. в 10.15. родился Лука Габриель Антон. Спасибо огромное врачам ЦПСиР: Коротковой Ирине Александровне, Жуковой Екатерине Валерьевне, Овчинниковой Марии Александровне, а за фото в 9 месяцев Танюше Руденко. ...
Цветы. Практически одни сплошные цветы. Чтобы не было совсем уж скучно, можно поугадывать, какое растение вьётся в крайних подвесах веранды. Отгадка тоже среди фоток. Фоток много. Что может украсить дачу лучше, чем помидоры? Да ничто! :) Подумаешь, розы :) ...
Сделали царский подарок к Новому году - подарили довоенные настенные часы. Чернильный штамп с годом выпуска нечитаем, но есть штампик "гост 41" и , главное, надпись сзади карандашом, что часы куплены 16 марта 1941 года в Свердловске. Покупка часов для советского человека очень большое ...
Дискуссии с коллегами в присутствии начальства уместны только если этот коллега глупее начальства. Что не часто случается. Однажды я был кюеем, и мне дали задание - взять какой-то охрененно полоумный пакет для тестирования параллельных ...
-Привет мне не хотят физиопроцедуры делать по поводу болей в спине, тк у меня давление 200. -10 лет назад я тебе расписал схему лечения. -Да, я попил и мне хорошо стало. -Я сказал, что лечиться надо всю жизнь. -Та ну нахер! Впрочем помню, говорил, но ну нахер. -Будешь принимать и умрёшь в ...