Повторяющиеся последовательности ДНК
Повторя́ющиеся после́довательности ДНК (повторы ДНК), области ДНК, которые содержат множество совпадающих участков нуклеотидной последовательности. Характеризуются особыми механизмами функционирования, играют важную эволюционную роль в качестве областей активных изменений генома, принимают участие в управлении метаболическими процессами клетки. У эукариот занимают значительную, иногда большую часть генома в отличие от прокариот. Связаны с развитием ряда заболеваний, прежде всего вызванных экспансией нуклеотидов.
В ходе изучения повторяющиеся последовательности ДНК долгое время считались частью мусорной и эгоистично реплицирующейся ДНК, которые якобы не участвуют в экспрессии генов и носят рудиментарный или даже паразитический характер. Некоторые повторы ДНК играют важную структурную и эволюционную роль, особенно локализованные рядом с центромерами (содержат протяжённые области повторов, прежде всего сателлитной ДНК) и теломерами (содержат простые повторы) (Gemmell. 2021).
Типы повторов ДНК
Типы повторяющихся последовательностей ДНК различаются по структуре, размеру, эволюционному значению и представленности в различных геномах.
Тандемные повторы следуют непосредственно друг за другом по принципу «голова к хвосту» и являются прямыми, т. е. их последовательности совпадают и имеют одинаковое направление. Размер отдельных повторяющихся единиц и их число могут сильно варьироваться (Орлов. 2019).
В инвертированных повторах последовательность одних повторяющихся единиц обратно комплементарна последовательности других (т. е. обращена с заменой нуклеотидов на комплементарные). Благодаря этому инвертированные повторы могут образовывать водородные связи и, как следствие, различные элементы вторичной структуры ДНК (шпильки и т. п.).
Если инвертированные повторы непосредственно прилегают друг к другу, то их называют палиндромными (Орлов. 2019). В прокариотических геномах обнаружены короткие палиндромные повторы, расположенные группами (clustered regularly interspaced short palindromic repeats, CRISPR).
Диспергированные (дисперсно распределённые) повторы разделены другими последовательностями ДНК – спейсерами. Такие участки ДНК, представленные единственной копией, принято называть уникальными (single-copy DNA) (Орлов. 2019). К диспергированным повторам относят транспозоны, или мобильные генетические элементы (МГЭ).
В различных геномах могут присутствовать и другие последовательности, состоящие из ряда повторяющихся копий. Они имеют специфичные строение и функции, например дуплицированные гены, удвоенные (в том числе неоднократно) в ходе эволюции, – ген амилазы AMY (Independent amylase gene copy ... 2019).
Повторяющиеся участки ДНК также содержат последовательности Шайна – Дальгарно, которые соответствуют точке начала трансляции в РНК прокариот. Обычно это последовательность AGGAGG, которая отстоит от точки начала транскрипции на 10 пар оснований (Jin-Der Wen. 2021). Помимо этого, в случае Rho-независимой терминации прокариот этот процесс связан с палиндромной GC-богатой последовательностью, образующей шпильку (Keeping up with RNA-based regulation ... 2121).
Повторами ДНК являются и CpG-сайты, которых много в особых участках генома эукариот – CpG-островках, играющих важную регуляторную роль и часто расположенных рядом с промоторами. Такие последовательности содержат динуклеотиды CpG, которые подвергаются метилированию (Jabbari. 2004).
Повторяющиеся последовательности имеют и специализированные гены гомеобокса и Т-бокса, которые управляют эмбриональным развитием многоклеточных организмов (Martinelli. 2005), а также последовательности ядрышкового организатора (McStay. 2016).
Повторы следует отличать от умножения крупных фрагментов целых хромосом, называемых сегментными дупликациями (Добавочные хромосомы ... 2010), и полиплоидии, т. к. в них увеличиваются кратно большие фрагменты генома или целиком весь наследственный материал.
Распределение и функции повторов ДНК в геномах разных организмов
Повторяющиеся последовательности ДНК являются важным участником регуляции экспрессии генов, клеточного цикла, поддержания стабильности генома и его целостности. Они необходимы для трёхмерной организации генома (Cournac. 2016). В областях теломер и центромер они выполняют особые функции: в случае центромер служат источником быстрых эволюционных изменений в кариотипе (Hartley. 2019); в случае теломер – защищают концы хромосом от разрушения. Такие последовательности не кодируют генетическую информацию и постепенно укорачиваются в ходе клеточных делений, тем самым также защищая остальную часть хромосом (Telomeres and telomerase in oncogenesis ... 2020).
Повторяющиеся последовательности эукариот принимают участие в хромосомных перестройках (включая делеции, дупликации, инверсии и транслокации отдельных участков хромосом), которые определяют значительные изменения кариотипа (Evolutionary dynamics of the repetitive DNA ... 2020).
У эукариот на долю повторов ДНК может приходиться бо́льшая часть генома, особенно они богаты диспергированными повторами, среди которых преобладают ретротранспозоны. Например, геном человека состоит из повторов мобильных генетических элементов LINE, SINE, ERV. Крупные геномы некоторых растений (кукуруза, пшеница) состоят преимущественно из повторяющейся ДНК, где их доля составляет 85–90 % (Evolutionary dynamics of the repetitive DNA ... 2020). Диспергированные повторы более равномерно покрывают геном, но тяготеют к областям активных хромосомных перестроек (делеций, дупликаций и др.) (Genesis, effects and fates ... 2009). Они локализованы в специализированных регионах генома – в гетерохроматине или эухроматине, а также на участках генов, выполняющих специализированные функции.
Тандемные повторы у эукариот распределены менее равномерно, но могут быть приурочены к конкретным регионам хромосом, включая центромеры, теломеры и связанные с ними области, где могут достигать очень большой длины (Evolutionary dynamics of the repetitive DNA ... 2020).
В прокариотических геномах доля повторяющихся последовательностей ДНК (как и некодирующих областей в целом) намного меньше, что связано с различиями в организации геномов разных доменов живого. Однако в отдельных случаях прокариоты также могут иметь сотни или даже тысячи значительных по размеру повторов ДНК (Genesis, effects and fates ... 2009).
У прокариот диспергированные повторы либо не имеют функциональной нагрузки, как некоторые инсерционные последовательности (IS-элементы – insertion sequence), либо выполняют определённые функции, как некоторые МГЭ, которые несут гены, определяющие устойчивость к антибиотикам. В случае бактерий большинство диспергированных повторов (транспозонов) ассоциировано с местами инсерций (вставок) других мобильных элементов, встраивания плазмид (ISMapper: identifying transposase insertion sites ... 2015).
В прокариотических геномах повышенная скорость делеций и дупликаций тандемных повторов используется для быстрого переключения экспрессии связанных генов – фазовой вариации (phase variation) (Genesis, effects and fates ... 2009).
Тандемные повторы бактерий рода бациллы (Bacillus) имеют фиксированный размер, но варьирующую последовательность. Предполагается, что эти повторы необходимы для связывания специфических белков и стабилизации нуклеоида (бактериальной хромосомы). Последовательности этих тандемных повторов также транскрибируются в небольшие молекулы РНК – чаще всего они находятся в межгенных областях (Subirana. 2020).
Тринуклеотидные тандемные повторы в промоторной области внутриклеточных паразитов рода микоплазма (Mycoplasma) связаны со специфическими генами, определяющими патогенность. Например, в случае Mycoplasma gallisepticum такие тандемные повторы резко изменяют размер и способствуют быстрому и эффективному переключению экспрессии генов при смене фаз жизненного цикла. Эти специализированные повторы и связанные с ними гены также позволяют микоплазмам успешно избегать иммунного ответа хозяина (Comparative analysis of mycoplasma ... 2018).
Особую разновидность повторов ДНК у бактерий представляют CRISPR-кассеты, входящие в систему геномного редактирования CRISPR/Cas, которая участвует во внутриклеточном иммунитете. Сохранение чужеродного генетического материала благодаря CRISPR/Cas позволяет некоторым прокариотам защититься от его повторного попадания в клетку.
Механизмы возникновения и эволюционное значение
В возникновении повторов ДНК участвует ряд механизмов, включая ошибки при репликации, репарации и гомологичной рекомбинации, перемещение транспозонов по геному, работу системы CRISPR/Cas у прокариот и т. п. В первом случае образуются тандемные повторы (без вставок-спейсеров), в остальных – диспергированные повторы, имеющие спейсеры различной длины. Вне зависимости от происхождения повторы в дальнейшем активно участвуют в рекомбинации наряду с другими последовательностями ДНК (Genesis, effects and fates ... 2009).
Принято считать, что ключевыми механизмами эволюционных преобразований у эукариот являются дупликация генов и изменения положения регуляторных элементов. У прокариотических организмов эту роль играет горизонтальный перенос генов. В обоих случаях в том или ином виде принимают участие повторы ДНК (Treangen. 2009).
Повторы ДНК могут представлять собой «эгоистичные» (воспроизводящие сами себя) элементы генома, поэтому их присутствие потенциально связано с возможной потерей организации и дестабилизации генома. В то же время повторы ДНК могут участвовать в его защите от других таких элементов (Genesis, effects and fates ... 2009). В остальных случаях они оказывают благотворное влияние при перестройке и быстрой эволюции регуляторных сетей генома. У прокариот диспергированные повторы из транспозонов играют важную роль в горизонтальном переносе генов (Subirana. 2020).
Для коротких тандемных повторов характерны чрезвычайно быстрые эволюционные изменения и специфические т. н. динамические мутации. В сравнении с «обычными» динамические мутации в микросателлитных ДНК происходят с гораздо большей вероятностью – её оценивают как 0,01–0,000001 % (Microsatellite evolution ... 2008). Динамические мутации затрагивают одновременно целые участки ДНК и приводят к кратному увеличению числа повторяющихся единиц (т. н. экспансия нуклеотидов) или их выпадению. При этом занимаемая повторами область может прогрессивно увеличиваться и достигать больших размеров.
Повторяющиеся последовательности ДНК в медицине и биотехнологиях
Особая эволюционная роль и быстрая изменчивость повторяющихся последовательностей ДНК определяют их большое значение для медицины и биотехнологий. Например, экспансию нуклеотидов продолжают активно изучать в качестве причины тяжёлых наследственных заболеваний. С этой целью используют методы молекулярной биологии и различные модельные организмы [включая пекарские дрожжи (Saccharomyces cerevisiae), кишечную палочку (Escherichia coli) и различных животных, в том числе домовую мышь (Mus musculus)] (Wheeler. 2021).
Известны свыше 40 генетических заболеваний, вызванных экспансиями нуклеотидов (чаще всего это экспансии тринуклеотидных повторов). Главным образом они представляют собой расстройства нервной системы (нейродегенеративные заболевания), при которых экспансия нуклеотидов может затрагивать разные функциональные участки гена, включая промоторы, энхансеры, другие регуляторные элементы, а также его кодирующую область (Rodriguez. 2019).
Синдром ломкой X-хромосомы, который вызывает экспансия повторов на конце плеча половой хромосомы, развивается исключительно у мужчин. Болезнь Хантингтона связана с тринуклеотидной экспансией в гене хантингтина, в том числе в его кодирующей части. В результате функции соответствующего белка нарушаются и развивается нейродегенеративный процесс, неизбежно приводящий к гибели (Lee. 2014).
Экспансии нуклеотидов способны вызывать спиноцеребеллярные атаксии, которые сопровождаются нарушением координации и двигательными расстройствами, вызванными нарушениями функций мозжечка и спинного мозга (Орлов. Спиноцеребеллярные атаксии. 2021; Afonso-Reis. 2021), и похожее расстройство – дентато-рубро-паллидо-льюисову атрофию (Орлов. Дентато-рубро-паллидо-льюисова атрофия. 2021).
Диспергированные повторы играют важную роль в развитии онкологических, нейродегенеративных заболеваний и гемофилии, поскольку могут нарушать экспрессию отдельных генов и дестабилизировать геном в целом (Genesis, effects and fates ... 2009). Локализация и определение числа повторов широко используется в прогностических целях при диагностике наследственных и раковых заболеваний.
Короткие тандемные повторы быстро меняются и отличаются индивидуальным профилем, следовательно, применяются в ДНК-дактилоскопии, которая основана на сходстве микросателлитных маркёров (т. е. на сходстве характерного профиля тандемных повторов – наличии конкретных общих участков и близком числе копий в них). Её разрешающая способность позволяет идентифицировать конкретного человека, а также его близких родственников на основании биологического материала (например, на месте преступления), в тестах на родительство, поиске неизвестных родственников, идентификации останков в массовых захоронениях и т. п. (STR genotyping and mtDNA ... 2003).
В агропромышленных технологиях высокая чувствительность детекции на основе микросателлитов позволяет определять сорта семенного материала растений (Челюстникова. 2019).
Поскольку повторы ДНК родственных систематических групп эволюционно консервативны, они с успехом используются для исследований эволюции близких видов, в том числе связанных с микроэволюцией (появление новых видов), и перестроек хромосом (Evolutionary dynamics of the repetitive DNA ... 2020).
Особое практическое значение имеют повторы CRISPR, входящие в систему геномного редактирования CRISPR/Cas. Эти специализированные области ДНК стали основой для революционной методики направленного редактирования геномов CRISPR/Cas, имеющей исключительные перспективы для медицины и биотехнологии (The potential of CRISPR/Cas9 gene ... 2021).
Стало возможным конструирование новых прямых повторов ДНК. Так получают белки, которые имеют заданные ценные свойства и, подобно кодирующей их ДНК, тоже содержат повторяющиеся участки последовательности. На основе этого подхода удалось получить обладающий высокой прочностью белок кальмара. Для искусственного конструирования таких тандемных повторов ДНК используют ряд методик, включая «бесшовное» клонирование, рекурсивное направленное лигирование и т. п. (Орлов. 2019).
Повторы ДНК вызывают большие затруднения при высокопроизводительном секвенировании нового поколения (next generation sequencing, NGS), а также сборке геномов и их аннотации. Причина – совпадающие последовательности трудно отличить друг от друга и тем самым установить положение в геноме (Microsatellite development from genome skimming and transcriptome sequencing: comparison of strategies and lessons from frog species / Yun Xia, Wei Luo, Siqi Yuan [et al.] // BMC Genomics. 2018. Vol. 19. Art. 886).