Молекулярные биологи закончили собирать последовательность ДНК человека — этому посвящен специальный выпуск журнала Science. В предыдущей версии генома, которая появилась в 2001 году, около 8 процентов последовательности оставались нерасшифрованными. Это в основном некодирующие участки, центральные и концевые области хромосом. Результатам проекта посвящены сразу шесть (1, 2, 3, 4, 5, 6) статей. Полная версия генома позволяет точнее выявлять индивидуальные генетические особенности людей и может стать новым стандартом в генетике, несмотря на то, что в ней пока не хватает целой хромосомы.
В 2000 году проект «Геном человека» и компания Крейга Вентера Celera genomics заявили о том, что закончили секвенировать последовательность человеческой ДНК (подробнее об этом мы рассказывали в тексте «Геном человека: двадцать лет спустя»). К 2001 году они опубликовали свои черновые версии сборки с разницей в сутки (сначала «Геном человека», потом проект Вентера), а к 2003 году объединили свои усилия и наработки, чтобы собрать единый чистовик. Он стал первым стандартом, или референсным геномом, с которым сверялись все, кто расшифровывал новые геномы человека или искал генетические причины болезней. Однако работа по чтению человеческой ДНК на этом не закончилась.
Авторы первой версии человеческого генома не скрывали, что он далеко не полон. Например, в нем остался 341 пробел. Кроме того, в своей работе исследователи сделали ставку на эухроматин — ту фракцию ДНК, которая в клетке обычно находится в неплотно упакованном состоянии и информация с которой может быть считана. Таким образом, в первый вариант генома не вошли многие участки гетерохроматина — «скрученной» фракции ДНК. Она состоит в основном из последовательностей, которые не кодируют белки, но выполняют разные технические и структурные (и часто не до конца понятные) функции — поэтому тоже могут влиять на жизнь и работу клетки.
В первом варианте генома также не до конца было ясно, какие гены и некодирующие участки за что отвечают. Выяснением этого занимается, например, проект ENCODE. Наконец, референсный геном не учитывал в полной мере генетическое разнообразие людей — несмотря на то, что его собрали из случайных количеств ДНК от нескольких десятков человек. Восполнять эти пробелы взялись другие проекты, например, «Тысяча геномов».
С тех пор геном неоднократно уточняли, появилось несколько обновленных референсов. Последний, GRCh38.p13, был опубликован в 2019 году. Но и в нем оставалось немало белых пятен — участков, где вместо нуклеотидов значились буквы N, или где были подставлены какие-то суррогатные последовательности. Еще про полторы сотни участков не было точно известно, где именно и в каком порядке они располагаются. Суммарно эти неточности затрагивали около 8 процентов человеческого генома — что по размеру сопоставимо с целой хромосомой.
Разобраться с недостающими частями в геноме взялся Консорциум «От теломеры до теломеры» (T2T-Consortium, теломера — концевой участок хромосомы). В него вошли ученые из 54 институтов и лабораторий из разных стран (в том числе России), а результатом их работы стала первая полноценная сборка генома — о которой они рассказали в шести статьях в журнале Science.
Первая статья — это презентация новой сборки, в ней авторы рассказывают о том, какие методы они использовали, и подводят итоги своей работы. Новый геном получил имя CHM13 — по культуре клеток, которые стали донорами ДНК. Эта культура происходит из пузырного заноса — необычной опухоли человека, которая появляется, если оплодотворенная яйцеклетка по какой-то причине теряет материнские хромосомы (фактически это разновидность партеногенеза, подробнее об этом читайте в тексте «Половинка себя»). Пузырный занос удобен тем, что часто его геном состоит из удвоенного хромосомного набора, который принес с собой сперматозоид. А значит, обе копии каждой хромосомы должны быть практически идентичны (за исключением точечных мутаций и случайных поломок), и при секвенировании не нужно разбираться, на какой из копий расположен тот или иной участок.
Сборка CHM13 отличается от предшественников и технологией секвенирования. Предыдущие варианты генома были собраны из множества коротких последовательностей — то есть ДНК сначала разбивали на маленькие участки, прочитывали каждый в отдельности, а затем накладывали друг на друга. Но для гетерохроматина этот метод не подходит, поскольку там много повторяющихся участков, в расположении и числе которых легко ошибиться (например, некоторых генов рибосомальной РНК у человека может быть по 300-400 копий). Поэтому участники Консорциума T2T использовали метод длинных чтений (long-read sequencing), то есть разбивали ДНК на длинные части и прочитывали их целиком.
В результате в состав CHM13 вошли 3 054 815 472 пар нуклеотидов ядерной ДНК и 16 569 пар — из митохондриальной. Из них 182 миллиона пар — совершенно новые: их не было в предыдущей сборке генома 2019 года. В этом геноме, отмечают авторы работы, нет пробелов и нуклеотидов, которым не удалось найти место — он совершенно полный.
Подавляющая часть новых участков — это некодирующая ДНК, в основном центромерная (то есть из середины хромосом, в том месте, где они скрепляются друг с другом в характерный крест при мейозе). Тем не менее, исследователям удалось найти и новые гены — всего 1956 штук. Из них около сотни, по их оценкам, кодируют белки (остальные могут кодировать отдельные типы РНК или не работать совсем).
Остальные пять статей в выпуске посвящены отдельным углубленным исследованиям в рамках проекта. Например, в одной из работ рассказывается о центромерах, их разнообразии, структуре и эволюции. В другой — о повторах в геноме: авторы искали среди них ретротранспозоны (мобильные генетические элементы, которые могут перемещаться по геному или вставлять в него новые свои копии), в том числе активные. Третья посвящена сегментным дупликациям — длинным участкам с небольшим количеством копий, которые, вероятно, сыграли роль в эволюции приматов. Четвертая представляет карту метилирования новосеквенированных участков.
Наконец, еще одна статья посвящена практическим применениям нового генома. Ее авторы проверяли, насколько удобно использовать сборку CHM13, чтобы сравнивать с ней геномы отдельных людей и искать особенные варианты последовательностей. Для этого они воспользовались базой проекта «Тысяча геномов» и, сравнивая последовательности из базы с CHM13, нашли больше миллиона генных вариантов (тех, которые не показывало сравнение со сборкой GRCh38). Поэтому участники консорциума предложили назначить CHM13 новым стандартом для генетических и геномных исследований.
Но и на этом расшифровка человеческого генома не закончится. В CHM13 остаются свои недоделки — например, в этой сборке нет Y-хромосомы. Это связано с тем, что клетки пузырного заноса несут по две одинаковых копии каждой хромосомы, а генотип YY не жизнеспособен. Поэтому эту хромосому придется собирать отдельно.
Кроме того, CHM13 — это не синтетический геном из клеток разных людей, как было с предыдущими сборками, а геном одной клеточной линии. Поэтому дальше Консорциуму предстоит собрать другие варианты геномов, чтобы их стандарт учитывал не только полную последовательность ДНК, но и разные ее варианты.
Раньше мы писали о спорах, которые идут между учеными по поводу того, какая часть ДНК на самом деле «полезна» для клетки. А еще рассказывали о том, как биологи попали в Книгу рекордов Гиннесса, отсеквенировав геном человека за считанные часы.
Иллюстрация к статье:
Обсуждение