Промотор
Промо́тор (англ. promoter) — последовательность нуклеотидов ДНК, узнаваемая РНК-полимеразой как стартовая площадка для начала транскрипции. Промотор играет одну из ключевых ролей в процессе инициации транскрипции[1].
Общие сведения
Обычно промотор расположен вокруг точки старта транскрипции – первого нуклеотида, с которого получается транскрипт, имеющий координату +1 (предыдущий нуклеотид обозначается как -1). Промотор обычно включает ряд мотивов, важных для узнавания его РНК-полимеразой. В частности, -10 и -35 элементы у бактерий, ТАТА-бокс у эукариот[1].
Промотор асимметричен, что позволяет РНК-полимеразе начать транскрипцию в правильном направлении и указывает на то, какая из двух цепей ДНК будет служить матрицей для синтеза РНК. Матричная цепь ДНК называется некодирующей, при этом другая, кодирующая цепь совпадает с полученной РНК по последовательности (исключая замену тимина на урацил)[1].
То, под каким промотором находится кодирующий РНК участок ДНК, играет решающую роль в интенсивности экспрессии этого гена в каждом конкретном типе клеток. По активности промоторы делят на конститутивные (постоянный уровень транскрипции) и индуцибельные (транскрипция зависит от условий в клетке, например от присутствия определенных веществ или наличия теплового шока). Активация промотора определяется присутствием набора транскрипционных факторов[1].
Устройство промоторов
У бактерий
Коровая РНК-полимераза бактерий (состоящая из субъединиц α2ββ'ω) может инициировать транскрипцию в любом месте генома. Однако, в клетке инициация происходит только в промоторных участках. Такая специфичность обеспечивается σ-субъединицей (σ-фактор), которая в комплексе с коровым ферментом образует холофермент. Основным σ-фактором клеток Escherichia coli является σ70-субъединица[1].
Классический (σ70) промотор представляет собой две консервативные последовательности длиной по 6 нуклеотидов, расположенные выше сайта начала транскрипции на 10 и 35 п.о., разделенные 17 нуклеотидами. Эти последовательности называются соответственно -10 и -35 элементами. Элементы не идентичны во всех промоторах, но для них можно получить консенсусные последовательности[1].
Некоторые сильные промоторы также имеют UP-элемент, расположенный выше -35-элемента, который повышает уровень связывания РНК-полимеразы. Некоторые σ70 промоторы не имеют -35-элемента, зато имеют -10-элемент, расширенный вверх на несколько нуклеотидов (extended -10). Таков промотор галактозного оперона E.coli. Иногда ниже -10-элемента располагается ещё один связывающий элемент – дискриминатор[1].
Альтернативные σ-субъединицы РНК-полимеразы меняют специфичность узнавания промоторов. Например, σ32-субъединица вызывает узнавание промоторов генов ответа на тепловой шок, σ54 связана с генами метаболизма азота[1].
У эукариот
Клетки эукариот содержат несколько типов РНК-полимераз. Транскрипцией мРНК занимается РНК-полимераза II вместе с набором белковых факторов транскрипции[1].
Коровый промотор эукариот – это минимальный набор элементов последовательности, необходимый для связывания РНК-полимеразы II и транскрипционных факторов, вовлеченных в процесс старта инициации транскрипции. Обычно длина корового промотора составляет 40-60 п.о., а располагаться он может или выше, или ниже точки старта транскрипции. Полный набор элементов корового промотора включает в себя BRE-элемент, ТАТА-бокс, Inr (инициатор) и/или нижележащие элементы (DPE, DCE и MTE). Обычно, в промоторе находится комбинация из этих элементов. Например, в одном промоторе обычно не встречаются DPE и TATA-бокс одновременно. Часто встречается комбинация TATA-бокса, DPE и Inr[1].
Элемент промотора | Связываемый белок | Координаты | Консенсусная последовательность |
---|---|---|---|
BRE-элемент | TFIIB | -37 -32 | [GC][GC][GA]CGCCC |
ТАТА-бокс | TBP | -31 -26 | TATA[AT]A[AT] |
Inr | TFIID | -2 +4 | [CT][CT]AN[TA][CT][CT] |
DCEI | TFIID | +6 +11 | CTTC |
DCEII | TFIID | +16 +21 | CTGT |
MTE | +21 +28 | ||
DPE | TFIID | +28 +32 | [AG]G[AT]CGTG |
DCEIII | TFIID | +30 +34 | AGC |
Также для протекания транскрипции эукариот необходимо взаимодействие с регуляторными последовательностями, расположенными от точки старта транскрипции, – проксимальными последовательностями, энхансерами, сайленсерами, инсуляторами, пограничными элементами[1].
В эукариотических клетках кроме РНК-полимеразы II есть еще две РНК-полимеразы, транскрибирующие рРНК (за это ответственна РНК-полимераза I) и такие некодирующие РНК как тРНК и 5sРНК (их транскрибируют РНК-полимераза III)[1].
РНК-полимераза I в клетках эукариот транскрибирует единственный ген-предшественник рРНК, присутствующий в геноме во многих копиях. Промотор гена рРНК содержит коровые элементы (координаты около -45 +20) и UCE (upstream control element, координаты около -150 -100). Инициация транскрипции этого гена также требует несколько факторов транскрипции – TBP, SL1 (состоит из белков TBP и трех TAF) и UBF. UBF связывает UCE-элемент, SF1 – коровый промотор. Связанный UBF стимулирует связывание полимеразы с участком корового промотора[1].
РНК-полимераза III транскрибирует гены некоторых некодирующих РНК клетки (тРНК, 5sРНК). Промоторы РНК-полимеразы III очень разнообразны и обычно лежат ниже точки старта транскрипции. Промоторы генов тРНК, в частности, содержат A- и B-боксы, для инициации требуются факторы транскрипции TFIIIB и TFIIIC. Другие промоторы могут содержать A- и C-боксы (например 5sРНК), для инициации требуются факторы транскрипции TFIIIA, TFIIIB, TFIIIC. Группа промоторов РНК-полимеразы III содержит ТАТА-боксы[1].
Регуляция промоторов
Регуляция уровня транскрипции часто происходит на стадии инициации, то есть от связывания РНК-полимеразы с промотором до начала элонгации[1].
- Связывание РНК-полимеразы с промотором может блокироваться белком-репрессором, физически закрывающим промотор или его участок;
- Полимераза может нуждаться в дополнительном белке-активаторе для успешного связывания;
- Участок хроматина с промотором может быть недоступен для белков, в том числе полимеразы, при компактной упаковке, например, гетерохроматин у эукариот.
Промоторный участок в пределах оперона у бактерий может частично перекрываться или вовсе не перекрываться с операторным участком цистрона (гена). У бактерий связывание с промотором определяется структурной частью полимеразы – σ-субъединицей. Также часто в регуляции участвуют белки-регуляторы, которые могут ускорять процесс и повышать его эффективность (активаторы), либо замедлять (репрессоры)[1].
Транскрипция эукариот регулируется схожим с бактериями образом (за счет различных белков-регуляторов), но также имеет отличия. Гены эукариот не образуют оперонов, каждый ген обладает своим промотором. Эукариоты обладают хроматином, состоящим из ДНК и нуклеосом. И ДНК, и нуклеосомы могут подвергаться химической модификации, которая влияет на уровень транскрипции. Также, в регуляции промоторов у эукариот участвуют другие участки ДНК, такие как энхансеры, сайленсеры, инсуляторы, граничные элементы[1].
Примеры промоторов
Последовательности и особенности регуляции многих промоторов из разных живых организмов сейчас хороши изучены. Эти знания широко применяются при создании биоинженерных генетических конструкций (плазмид, векторов). Для экспрессии продукта в клетках бактерий или эукариот может быть использован как промотор, характерный для этой группы организмов, найденный в геноме, так и промотор, например, из вирусов, которые заражают данный организм[1].
Классическими примерами бактериальных оперонов с известной регуляцией промоторов прокариот являются: лактозный промотор, триптофановый промотор, арабинозный промотор, ГАМК-оперон , галактозный оперон. Хорошо изученными промоторами эукариотических клеток являются GAL1 промотор у дрожжей, индуцибельный тетрациклиновый промотор TRE и индуцибельный эдкизоновый промотор. В вирусном геноме так же как и в про- и эукариотическом есть промоторы, например промотор фага T5, промотор фага T7, конститутивные промоторы вирусов SV40 (вирус полиомы), RSV, CMV (цитомегаловирус)[1].
Предсказание промоторного региона
Зачастую алгоритмы предсказания промоторов выдают большое количество ложноположительных результатов (предсказывают последовательности промоторов, которые таковыми не являются). Например, в среднем, различные алгоритмы предсказывают один промотор на 1000 п.о., в то время как человеческий геном содержит примерно один ген на 30000—40000 п. о.[2] Такой результат связан с тем, что при предсказании промоторов необходимо учитывать множество факторов[2]:
- Разнообразное устройство промоторов;
- Связывание промоторов с регуляторными элементами (проксимальные элементы, энхансеры, сайленсеры) генома;
- Влияние CpG-островов у эукариот (неметилированные CpG-острова зачастую располагаются немного выше сайта старта транскрипции у эукариот);
- Влияние инсуляторов и граничных условий (границы доменов хромосом);
- Укладка ДНК и расположение нуклеосом в пространстве.
Несмотря на сложности описанные выше, существует множество алгоритмов предсказания промоторных регионов в различных организмах. В таблице ниже приведены некоторые из них.
Название алгоритма | Принцип работы алгоритма | Что предсказывает алгоритм |
---|---|---|
TSSW[3] | Алгоритм предсказывает потенциальные сайты начала транскрипции с помощью линейной дискриминантной функции, объединяющей характеристики, описывающие функциональные мотивы и олигонуклеотидный состав этих сайтов. TSSW использует базу данных функциональных сайтов TRANSFAC (автор базы данных — E. Wingender[4], отсюда последняя буква в названии метода TSSW). | PolII промоторный регион человека. |
TSSG[3]/Fprom [3] | Алгоритм TSSG работает так же, как и TSSW, однако использует другую базу данных, TFD[5]. Fprom — тот же TSSG, натренированный на другом наборе последовательностей промоторов. | TSSG — PolII промоторный регион человека, Fprom — промоторный регион человека. |
TSSP[3] | Алгоритм работает так же, как и TSSW, использует базу данных регуляторных элементов растений RegSite[6]. При этом алгоритм натренирован на последовательностях промоторных регионов растений. | Промоторный регион растений. |
PePPER[7] | Алгоритм предсказывает промоторный регион основываясь на курируемых позиционной весовой матрице и скрытой марковской модели для -35 и -10 консенсусных последовательностей, а также различных сайтов связывания Bacillus subtilis и Escherichia coli (взяты как представители грамположительных и грамотрицательных бактерий соответственно). | Промоторный регион прокариот (подходит в основном для бактериальных геномов). |
PromoterInspector[8] | Эвристический алгоритм основывается на геномном окружении промоторной области выборки последовательностей млекопитающих. | PolII промоторный регион млекопитающих. |
BPROM[3] | Алгоритм работает так же, как и TSSW, использует базу данных функциональных сайтов DPInteract[9]. | σ70 промоторный регион E.coli. |
NNPP 2.2[10] | Программа представляет собой нейронную сеть с запаздыванием, которая состоит из двух функциональных слоев, один — для распознавания TATA-бокса и один — для распознавания Inr-элемента. | Промоторный регион эукариот и прокариот. |
G4PromFinder[11] | Алгоритм идентифицирует предполагаемые промоторы на основе AT-богатых элементов и G-квадруплексных ДНК-мотивов в GC-богатом регионе. | Промоторный регион бактерий. |
С ростом количества предсказанных, экспериментально показанных промоторных регионов различных организмов возникла необходимость создания базы данных промоторных последовательностей. Крупнейшей базой данных эукариотических последовательностей промоторов (в основном позвоночные организмы) является Eukaryotic Promoter Database[12]. База данных подразделяется на две части. Первая (EPD) — это курируемая коллекция последовательностей промоторов, полученная при помощи обработки экспериментальных данных, вторая (EPDnew) — результат слияния информации о промоторах из базы данных EPD с анализом данных методов высокопроизводительного секвенирования. При помощи высокопроизводительных методов получения транскриптомов, удалось получить набор промоторов для некоторых представителей растений и грибов: Arabidopsis thaliana (Резуховидка Таля), Zea mays (Кукуруза сахарная), Saccharomyces cerevisiae, Schizosaccharomyces pombe[13].
Примечания
- Watson J. D., Baker T. A., Bell S. P., Gann A. A., Levine M., Losick R. M. Molecular Biology of the Gene (англ.). — 7th. — Pearson, 2014.
- Pedersen Anders Gorm, Baldi Pierre, Chauvin Yves, Brunak Søren. The biology of eukaryotic promoter prediction—a review (англ.) // Computers & Chemistry. — 1999. — June (vol. 23, no. 3-4). — P. 191—207. — ISSN 0097-8485. — doi:10.1016/S0097-8485(99)00015-7.
- Solovyev Victor V., Shahmuradov Ilham A., Salamov Asaf A. Identification of Promoter Regions and Regulatory Sites (англ.) // Methods in Molecular Biology. — 2010. — P. 57—83. — ISBN 9781607618539. — ISSN 1064-3745. — doi:10.1007/978-1-60761-854-6_5.
- Wingender E. TRANSFAC: a database on transcription factors and their DNA binding sites (англ.) // Nucleic Acids Research. — 1996. — 1 January (vol. 24, no. 1). — P. 238—241. — ISSN 1362-4962. — doi:10.1093/nar/24.1.238.
- Ghosh David. A relational database of transcription factors (англ.) // Nucleic Acids Research. — 1990. — Vol. 18, no. 7. — P. 1749—1756. — ISSN 0305-1048. — doi:10.1093/nar/18.7.1749.
- RegSite Database . SoftBerry. Дата обращения: 7 апреля 2019.
- de Jong Anne, Pietersma Hilco, Cordes Martijn, Kuipers Oscar P, Kok Jan. PePPER: a webserver for prediction of prokaryote promoter elements and regulons (англ.) // BMC Genomics. — 2012. — Vol. 13, no. 1. — P. 299. — ISSN 1471-2164. — doi:10.1186/1471-2164-13-299.
- Scherf Matthias, Klingenhoff Andreas, Werner Thomas. Highly specific localization of promoter regions in large genomic sequences by PromoterInspector: a novel context analysis approach (англ.) // Journal of Molecular Biology. — 2000. — March (vol. 297, no. 3). — P. 599—606. — ISSN 0022-2836. — doi:10.1006/jmbi.2000.3589.
- Robison Keith, McGuire Abigail Manson, Church George M. A comprehensive library of DNA-binding site matrices for 55 proteins applied to the complete Escherichia coli K-12 genome 1 1Edited by R. Ebright (англ.) // Journal of Molecular Biology. — 1998. — November (vol. 284, no. 2). — P. 241—254. — ISSN 0022-2836. — doi:10.1006/jmbi.1998.2160.
- Burden S., Lin Y.-X., Zhang R. Improving promoter prediction Improving promoter prediction for the NNPP2.2 algorithm: a case study using Escherichia coli DNA sequences (англ.) // Bioinformatics. — 2004. — 28 September (vol. 21, no. 5). — P. 601—607. — ISSN 1367-4803. — doi:10.1093/bioinformatics/bti047.
- Di Salvo Marco, Pinatel Eva, Talà Adelfia, Fondi Marco, Peano Clelia, Alifano Pietro. G4PromFinder: an algorithm for predicting transcription promoters in GC-rich bacterial genomes based on AT-rich elements and G-quadruplex motifs (англ.) // BMC Bioinformatics. — 2018. — 6 February (vol. 19, no. 1). — ISSN 1471-2105. — doi:10.1186/s12859-018-2049-x.
- Cavin Perier R. The Eukaryotic Promoter Database EPD (англ.) // Nucleic Acids Research. — 1998. — 1 January (vol. 26, no. 1). — P. 353—357. — ISSN 1362-4962. — doi:10.1093/nar/26.1.353.
- Dreos René, Ambrosini Giovanna, Groux Romain, Cavin Périer Rouaïda, Bucher Philipp. The eukaryotic promoter database in its 30th year: focus on non-vertebrate organisms (англ.) // Nucleic Acids Research. — 2016. — 28 November (vol. 45, no. D1). — P. D51—D55. — ISSN 0305-1048. — doi:10.1093/nar/gkw1069.