Заполнение белых пятен в геноме человека начали с Х-хромосомы, в которой сумели заполнить пробел в три миллиона генетических букв.
Хотя считается, что геном человека полностью прочитан, в нём до сих пор остаются неизвестные куски. Чтение, или секвенирование генома – это расшифровка последовательности молекул нуклеотидов, составляющих цепочку (точнее, двойную цепочку) ДНК. Нуклеотидов всего четыре, обозначаются они буквами А, Т, Г и Ц, и их вполне достаточно, чтобы закодировать все белки, из которых мы состоим и которые выполняют в наших клетках все возможные молекулярные реакции.
Но кроме последовательностей, в которых зашифрованы белки, в ДНК есть участки, которые сами ничего не кодируют, но регулируют активность тех, которые кодируют. Наконец, в ДНК есть довольно большие фрагменты, которые прежде называли не иначе, как мусором. К мусорной ДНК относят, например, фрагменты вирусных генов, которые когда-то встроились в наш геном, да и уснули в нём навсегда, также мусором считают повторяющиеся последовательности нуклеотидов, и таких повторов может идти подряд очень и очень много (повторы не обязательно идентичны, они могут отличаться).
Так выглядит участок хромосом в районе центромеры – так называют зону, в которой соединены две копии удвоившейся хромосомы. За центромеры хватаются белки, участвующие в клеточном делении: прицепившись к хромосомам, они растаскивают их по дочерним клеткам. Вот центромерные участки хромосом обычно состоят из очень большого числа повторов. Такими зонами с массовыми нуклеотидными повторами при секвенировании человеческого генома часто пренебрегали, считая, что в них нет никакой существенной информации.
Впоследствии, однако, стали появляться свидетельства, что мусорная ДНК не такая уж мусорная, и что даже бессмысленные на первый взгляд повторы могут влиять на активность «осмысленных» участков хромосом. То есть все хромосомы желательно прочесть полностью, без пропусков. Но сделать это не так просто. Когда читают геном, зоны с повторами пропускают не просто так.
Взять и прочесть всю хромосому от начала до конца как она есть мы не можем – существующие методы позволяют читать ДНК лишь определённой длины, намного меньше длины хромосомы. Поэтому огромную хромосомную ДНК дробят на части, эти части читают, а потом получившиеся последовательности соединяют вместе.
Наверно, даже без объяснений понятно, насколько непростые должны быть тут алгоритмы, которые должны найти, где перекрываются разные куски ДНК, где соединяются конец одного фрагмента и начало другого. Задача усложняется, если фрагменты невелики – чем меньше фрагмент ДНК, тем сложнее понять, в каком контексте он стоит в геноме. (Для сравнения можно представить, что вам нужно определить, из какого места в незнакомом романе взята одна глава, или полглавы, или абзац – или всего лишь словосочетание, например, «голубое небо»: это голубое небо может стоять в тексте много где.) И задача ещё более усложняется, если мы имеем дело с фрагментами, составленными из повторов.
Но если научиться читать достаточно длинные куски ДНК, то можно просеквенировать и зоны с повторами. Собственно, в этом направлении методы чтения ДНК и развивались – фрагменты ДНК, которые можно прочесть за раз, постоянно удлинялись. И вот исследователи из Калифорнийского университет в Санта-Круз, Национальных институтов здоровья и других научных центров опубликовали в Nature статью, в которой пишут, что им удалось полностью, от начала до конца, прочесть человеческую Х-хромосому. Не углубляясь в подробности, скажем, что на этот раз использовали новые варианты методов чтения ДНК, позволяющие читать настолько большие куски ДНК, которые раньше было просто невозможно секвенировать; соответственно, были использованы новые алгоритмы, позволяющие проанализировать полученные последовательности, оценить их надёжность и соединить их вместе. В итоге удалось закрыть на Х-хромосоме большую зону с повторами длиной примерно 3 млн нуклеотидов, как раз в районе хромосомной центромеры.
Исследование стало частью большого проекта, имеющего целью прочесть к концу 2020 года все белые пятна в геноме человека. Насколько это удастся, скоро станет ясно: у нас есть хромосомы (первая и девятая) с повторными участками, которые намного больше тех, что есть у Х-хромосомы; кроме того, такие зоны могут отличаться у разных людей, и возникает вопрос, как отличить индивидуальную вариабельность от возможных погрешностей метода чтения и какой вариант потом взять за референсный (то есть, грубо говоря, за «среднеарифметический», с которым потом можно будет сравнивать отдельные геномы). Тем не менее, абсолютно полное секвенирование генома – задача, которую необходимо решать уже сейчас: последовательности генетических букв в повторных («мусорных») участках ДНК и их химические модификации влияют на работу генома в целом и могут быть связаны с теми или иными заболеваниями, молекулярно-генетические причины которых остаются до сих пор неизвестны.
Иллюстрация к статье:
Обсуждение