Позиционная весовая матрица
Позиционная весовая матрица (ПВМ) — биоинформатический метод, который применяется для поиска мотивов в биологических последовательностях.
ПВМ может быть построена на основе множественного выравнивания родственных последовательностей, или последовательностей, выполняющих близкие функции. ПВМ используется во многих современных алгоритмах для обнаружения новых мотивов[1].
История вопроса
Позиционная весовая матрица была представлена американским генетиком Гэри Стормо и его коллегами в 1982[2] году как альтернативный способ представления консенсусных последовательностей. Консенсусные последовательности использовались ранее для отображения общих мотивов в биологических последовательностях, однако этот метод имел некоторые недостатки прогнозирования и поиска этих мотивов в новых последовательностях[3]. Впервые ПВМ была использована для поиска сайтов инициации трансляции в РНК. Для создания матрицы весов, с помощью которой можно было бы отличать истинные сайты от схожих участков последовательностей, польско-американским математиком Анджеем Эренфойхтом был предложен перцептронный алгоритм. Результатом обучения перцептрона на выборках истинных и ложных сайтов являлись матрица и пороговое значение для различия этих двух наборов данных. Тестирование этой матрицы на новых последовательностях, не включенных в обучающую выборку, показало, что этот метод был более точным и чувствительным по сравнению с построением консенсусной последовательности.
Преимущества ПВМ перед консенсусными последовательностями сделали матрицы популярным методом для представления мотивов в биологических последовательностях[4][5].
Математическое определение
Строгое определение позиционно весовой матрицы выглядит следующим образом[6]:
, где — алфавит последовательности (зд. нуклеотидов), — номер позиции,
— позиционная матрица вероятностей, — встречаемость буквы в алфавите (то есть 0.25 для последовательности нуклеотидов и 0.05 для последовательности аминокислот).
Создание ПВМ
ПВМ представляет собой матрицу, количество строк которой соответствует размеру алфавита (4 нуклеотида для нуклеиновых кислот и 20 аминокислот для белковых последовательностей), а количество столбцов — длине мотива[6].
Шаг 1. Построение позиционной матрицы вероятностей
Первым этапом построения матрицы весов на основе множественного безделеционного выравнивания является создание позиционной матрица частот (ПМЧ). Элементы этой матрицы соответствуют тому, сколько раз каждая буква алфавита встречается на конкретной позиции в мотиве. Далее, ПМЧ преобразуется в позиционную вероятностную матрицу путём нормировки на общее число последовательностей в выравнивании. Такая матрица показывает, какова вероятность встретить данную букву в данной позиции в исходном выравнивании.
Каждый элемент вероятностной матрицы равен вероятности встретить букву в позиции в исходном выравнивании и высчитывается по формуле[1]:
где — номер последовательности, — номер позиции, — буква алфавита,
— буква, соответствующая позиции в последовательности , а — индикаторная функция, вычисляемая по формуле:
Например, даны следующие десять выровненных последовательностей ДНК, которые представляют один мотив:
GAGGTAAAC |
TCCGTAAGT |
CAGGTTGGA |
ACAGTCAGT |
TAGGTCATT |
TAGGTACTG |
ATGGTAACT |
CAGGTATAC |
TGTGTGAGT |
AAGGTAAGT |
соответственно позиционная матрица частот:
и, следовательно, полученная после деления на число последовательностей вероятностная матрица:
- [7].
В позиционной вероятностной матрице сумма значений каждого столбца, то есть вероятность встретить какую-нибудь букву алфавита в данной позиции, в случае безделеционного исходного выравнивания равна 1.
С помощью этой матрицы можно рассчитать вероятность того, что, генерируя с указанной в ней вероятностью буквы в каждой позиции, мы получим последовательность . Так как столбцы матрицы предполагаются независимыми друг от друга, эта вероятность равна произведению вероятностей получить каждую букву последовательности в её позиции, то есть:
где — буква последовательности в позиции .
Например, вероятность того, что последовательности S = GAGGTAAAC получена матрицей из предыдущего примера, может быть рассчитана:
Замечание
Для расчета позиционной матрицы вероятностей из небольшого массива данных часто применяются псевдосчёты. Из-за неполноты выборки может возникнуть ситуация, когда в некоторой позиции в исходной выборке представлены не все буквы. В таком случае вероятность получить эту букву при генерации случайной последовательности из этой матрицы будет равна нулю. Соответственно, вероятность сгенерировать последовательность с такой буквой в этой позиции тоже будет равна нулю вне зависимости от остальной последовательности[8]. Чтобы избежать этого, к каждому элементу вероятностной матрицы прибавляется некоторое значение, называемое псевдосчетом, чтобы сделать его отличным от нуля. По правилу Лапласа к каждому элементу матрицы частот добавляется 1 — минимальная возможная встречаемость буквы в этом положении. Существуют более сложные системы псевдосчетов, например, использующие смеси Дирихле или матрицы замен.
Учитывая псевдосчеты, определение матрицы вероятностей может быть сформулировано:
, где — ПМЧ, — псевдосчетная функция[9].
В приведенном выше примере, построенном без применения псевдосчетов, любая последовательность, которая не имеет G в четвёртой позиции или T в пятой позиции, будет иметь вероятность 0.
Шаг 2. Переход от вероятностей к весам
Последний шаг для создания ПВМ — переход от вероятностей букв в различных положениях мотива к их весам. Чаще всего эти веса вычисляются как логарифмическое отношение правдоподобия с учётом фоновой модели генерации случайной последовательности b. Простейшая фоновая модель предполагает, что каждая буква появляется одинаково часто в любой позиции наборе данных, то есть значение для любого символа в алфавите (0.25 для нуклеотидов и 0.05 для аминокислот, соответственно). Фоновая модель не обязательно должна подразумевать равномерное распределение букв: например, при изучения организмов с высоким GC-составом вероятности для C и G могут увеличиться, а для А и Т — соответственно уменьшиться. Таким образом, элементы матрицы весов рассчитываются по формуле[6]:
Применяя эту трансформацию к вероятностной матрице из примера (без учета псевдосчетов) получаем:
В случае, если элементы ПВМ рассчитываются с использованием логарифмического отношения правдоподобия, вес последовательности может быть рассчитан как сумма весов для каждой буквы этой последовательности в её позиции. Полученный вес дает представление о том, насколько эта последовательность соответствует мотиву, по которому была создана позиционная матрица весов. Чем выше вероятность того, что последовательность сгенерирована соответствующей вероятностной матрицей, а не случайна, тем выше вес.
Информативность ПBМ
Информационное содержание ПВМ показывает, насколько описанное в ней распределение букв в позициях отличается от равномерного распределения. Собственная информация для каждого символа в позиции мотива, равна:
Ожидаемая (средняя) собственная информация для этого элемента равна:
Информационное содержание всей матрицы равна сумме всех ожидаемых средних собственных информаций каждого элемента матрицы. Информационное содержание ПВМ в случае с неравномерным фоновым распределением рассчитывается по формуле:
- где — фоновая частота для данного символа.
Информационное содержание соотносится с расстоянием Кульбака — Лейблера или относительной энтропией. Однако, при использовании алгоритма PSSM для поиска геномных последовательностей (см. Ниже) такая равномерная коррекция может привести к переоценке важности различных оснований в мотиве из-за неравномерного распределения n-mers в реальных геномах, ведущих к значительно большему числу ложных срабатываний[10].
Использование ПBМ
ПВМ широко применяются для анализа нуклеотидных и белковых последовательностей. Прежде всего, они используются для поиска специфических сайтов и мотивов. Например, алгоритм MATCH[11] способен искать в последовательностях ДНК потенциальные сайты связывания транскрипционных факторов. Аналогичные подходы используются для белков[12]. Помимо поиска функциональных доменов, с помощью ПВМ можно предсказывать различные свойства белков, такие как вторичная структура[13][14][15], их доступность для растворителя[16][17], контакты в структуре[18]. Помимо поиска мотивов, ПВМ, построенные по множественному выравниванию, используются для описания семейств белков. Существуют базы ПВМ, с помощью которых можно определять принадлежность интересующего белка к известным семействам. Также совершенствуются методы построения и использования ПВМ. Например, был разработан способ создания ПВМ без использования больших множественных выравниваний белков, что значительно ускоряет расчеты при наличии большого массива исходных данных[19]. Кроме того, существует подход с использованием множественных ПВМ для описания семейств белков: в таком случае строится не одна, а много матриц с использованием разных неблизких (чтобы избежать смещения) белков семейства.
Алгоритмы для построения и использования ПВМ
Существуют различные алгоритмы для сканирования совпадений PWM в последовательностях. Одним из примеров является алгоритм MATCH, который был реализован в ModuleMaster. Более сложные алгоритмы для быстрого поиска в базе данных с помощью нуклеотидов, а также PWM / PSSM аминокислот внедрены в программное обеспечение possumsearch и описаны Beckstette, et al. (2006 год)[20].
Так же, среди наиболее известных алгоритмов, присутствуют MEME и Gibbs[1].
Реализация ПВМ
Готовой реализацией ПВМ можно воспользоваться на языках программирования Python (пакет BioPython) и R (библиотека seqLogo).
Пример кода на R
#install if necessary
source("http://bioconductor.org/biocLite.R")
biocLite("seqLogo")
library(seqLogo)
a <- c(0, 4, 4, 0, 3, 7, 4, 3, 5, 4, 2, 0, 0, 4)
c <- c(3, 0, 4, 8, 0, 0, 0, 3, 0, 0, 0, 0, 2, 4)
g <- c(2, 3, 0, 0, 0, 0, 0, 0, 1, 0, 6, 8, 5, 0)
t <- c(3, 1, 0, 0, 5, 1, 4, 2, 2, 4, 0, 0, 1, 0)
df <- data.frame(a,c,g,t)
df
a c g t
1 0 3 2 3
2 4 0 3 1
3 4 4 0 0
4 0 8 0 0
5 3 0 0 5
6 7 0 0 1
7 4 0 0 4
8 3 3 0 2
9 5 0 1 2
10 4 0 0 4
11 2 0 6 0
12 0 0 8 0
13 0 2 5 1
14 4 4 0 0
#define function that divides the frequency by the row sum i.e. proportions
proportion <- function(x){
rs <- sum(x);
return(x / rs);
}
#create position weight matrix
mef2 <- apply(df, 1, proportion)
mef2 <- makePWM(mef2)
seqLogo(mef2)
Примечания
- CSB2007 Learning Position Weight Matrices from Sequence and Expression Data . www.lifesciencessociety.org. Дата обращения: 30 апреля 2017.
- Stormo, Gary D.; Schneider, Thomas D.; Gold, Larry; Ehrenfeucht, Andrzej. Use of the ‘Perceptron’ algorithm to distinguish translational initiation sites in E. coli (англ.) // :en:Nucleic Acids Research|Nucleic Acids Research : journal. — 1982. — Vol. 10, no. 9. — P. 2997—3011. — doi:10.1093/nar/10.9.2997.
- Stormo, G. D. DNA binding sites: representation and discovery (неопр.) // Bioinformatics. — 2000. — 1 January (т. 16, № 1). — С. 16—23. — doi:10.1093/bioinformatics/16.1.16. — PMID 10812473.
- Sinha, S. On counting position weight matrix matches in a sequence, with application to discriminative motif finding (англ.) // Bioinformatics : journal. — 2006. — 27 July (vol. 22, no. 14). — P. e454—e463. — doi:10.1093/bioinformatics/btl227.
- Xia, Xuhua. Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction (англ.) // Scientifica : journal. — 2012. — Vol. 2012. — P. 1—15. — doi:10.6064/2012/917540.
- Position weight matrix - Musings from an unlikely candidate (англ.), Musings from an unlikely candidate (1 October 2013). Дата обращения 30 апреля 2017.
- Guigo, Roderic An Introduction to Position Specific Scoring Matrices . http://bioinformatica.upf.edu.
- Nishida, K.; Frith, M. C.; Nakai, K. Pseudocounts for transcription factor binding sites (англ.) // Nucleic Acids Research : journal. — 2008. — 23 December (vol. 37, no. 3). — P. 939—944. — doi:10.1093/nar/gkn1019.
- Position weight matrix - Musings from an unlikely candidate (англ.), Musings from an unlikely candidate (1 October 2013). Дата обращения 31 марта 2017.
- Ivan Erill, Michael C O'Neill. A reexamination of information theory-based methods for DNA-binding site identification // BMC Bioinformatics. — 2009-02-11. — Т. 10. — С. 57. — ISSN 1471-2105. — doi:10.1186/1471-2105-10-57.
- Kel A. E., et al. MATCHTM: a tool for searching transcription factor binding sites in DNA sequences (англ.) // Nucleic Acids Research : journal. — 2003. — Vol. 31, no. 13. — P. 3576—3579. — doi:10.1093/nar/gkg585. — PMID 12824369.
- Beckstette M., et al. Fast index based algorithms and software for matching position specific scoring matrices (англ.) // BMC Bioinformatics : journal. — 2006. — Vol. 7. — P. 389. — doi:10.1186/1471-2105-7-389. — PMID 1635428.
- Jones D. T. Protein secondary structure prediction based on position-specific scoring matrices (англ.) // J Mol Biol : journal. — 1999. — Vol. 292. — P. 195—202. — PMID 10493868.
- Pollastri, G. & McLysaght, A. Porter: a new, accurate server for protein secondary structure prediction (англ.) // Bioinformatics : journal. — 2005. — Vol. 21. — P. 1719—1720. — PMID 15585524.
- Rost, B. Review: protein secondary structure prediction continues to rise (англ.) // J Struct Biol : journal. — 2001. — Vol. 134. — P. 204—218. — PMID 11551180.
- Adamczak, R.; Porollo, A. & Meller, J. Accurate prediction of solvent accessibility using neural networks-based regression (англ.) // Proteins : journal. — 2004. — Vol. 56. — P. 753—767. — PMID 15281128.
- Pollastri, G.; Martin, A. J. M.; Mooney, C. & Vullo, A. Accurate prediction of protein secondary structure and solvent accessibility by consensus combiners of sequence and structure information (англ.) // BMC Bioinformatics : journal. — 2007. — Vol. 8. — P. 201. — PMID 17570843.
- Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. Improved prediction of the number of residue contacts in proteins by recurrent neural networks (англ.) // Bioinformatics : journal. — 2001. — Vol. 17. — P. Suppl 1 : S234—S242. — PMID 11473014.
- Shandar Ahmad and Akinori Sarai. PSSM-based prediction of DNA binding sites in proteins (англ.) // BMC Bioinformatics : journal. — 2005. — Vol. 6. — P. 33. — PMID 15720719.
- Michael Beckstette, Robert Homann, Robert Giegerich, Stefan Kurtz. Fast index based algorithms and software for matching position specific scoring matrices // BMC Bioinformatics. — 2006-08-24. — Т. 7. — С. 389. — ISSN 1471-2105. — doi:10.1186/1471-2105-7-389.