BLAST

BLAST
BLAST
Тип	Биоинформатика
Разработчик	Стивен Альтшуль, Уоррен Гиш, Вебб Миллер, Юджин Майерс и Дэвид Липман (NCBI)
Написана на	C++ и Си
Операционная система	UNIX, Linux, Apple Macintosh, Microsoft Windows
Последняя версия	2.11.0 (4.11.2020)
Читаемые форматы файлов	XML BLAST Output[d]
Создаваемые форматы файлов	XML BLAST Output[d]
Лицензия	Public Domain
Сайт	ftp.ncbi.nlm.nih.gov/bla…

BLAST (англ. Basic Local Alignment Search Tool — средство поиска основного локального выравнивания) — семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти последовательности предполагаемых гомологов. Является важнейшим инструментом для молекулярных биологов, биоинформатиков и систематиков. Программа BLAST была разработана группой учёных: Стивен Альтшуль, Уоррен Гиш, Вебб Миллер, Юджин Майерс и Дэвид Липман в системе Национальных институтов здравоохранения США. Первая публикация с описанием программы вышла в Журнале молекулярной биологии в 1990 году[1].

Классификация программ серии BLAST

Семейство программ серии BLAST делится на 5 основных групп:

Нуклеотидные

предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированных нуклеиновых кислот и их участков:

megablast — быстрое сравнение с целью поиска высоко сходных последовательностей,
dmegablast — быстрое сравнение с целью поиска дивергировавших последовательностей, обладающих незначительным сходством,
blastn — медленное сравнение с целью поиска всех сходных последовательностей и др.

Белковые

предназначены для сравнения изучаемой аминокислотной последовательности белка с имеющейся базой данных белков и их участков.

blastp — медленное сравнение с целью поиска всех сходных последовательностей,
cdart — сравнение с целью поиска гомологичных белков по доменной архитектуре,
rpsblast — сравнение с базой данных консервативных доменов,
psi-blast — сравнение с целью поиска последовательностей, обладающих незначительным сходством,
phi-blast — поиск белков, содержащих определённый пользователем паттерн и др.

Транслирующие

способны транслировать нуклеотидные последовательности в аминокислотные:

blastx — переводит изучаемую нуклеотидную последовательность в кодируемые аминокислоты, а затем сравнивает её с имеющейся базой данных аминокислотных последовательностей белков,
tblastn — изучаемая аминокислотная последовательность сравнивается с транслированными последовательностями базы данных секвенированных нуклеиновых кислот,
tblastx — переводит изучаемую нуклеотидную последовательность в аминокислотную, а затем сравнивает её с транслированными последовательностями базы данных секвенированных нуклеиновых кислот.

Геномные

предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированного генома какого-либо организма (человека, мыши и др.)

magicblast — картирует прочтения (риды) на полный геном или транскриптом.

Специальные

прикладные программы, использующие BLAST:

bl2seq — сопоставление двух последовательностей по принципу локальных выравниваний,
VecScreen — определение сегментов нуклеотидной последовательности нуклеиновой кислоты, которые могут иметь векторное происхождение и др.

Принципы работы BLAST

Все выравнивания принято делить на глобальные (последовательности сравниваются полностью) и локальные (сравниваются только определённые участки последовательностей). Программы серии BLAST производят локальные выравнивания, что связано с наличием в различных белках сходных доменов и паттернов. Кроме этого локальное выравнивание позволяет сравнить иРНК с геномной ДНК. В случае глобального выравнивания обнаруживается меньшее сходство последовательностей, особенно их доменов и паттернов.

После введения изучаемой нуклеотидной или аминокислотной последовательности (запрос) на одну из веб-страниц BLAST, она вместе с другой входной информацией (база данных, размера «слова» (участка), значение величины E и др.) поступает на сервер. BLAST создаёт таблицу всех «слов» (в белке — это участок последовательностей, который по умолчанию состоит из трёх аминокислот, а для нуклеиновых кислот из 11 нуклеотидов) и сходных «слов».

Затем в базе данных проводится их поиск. Когда обнаруживается соответствие, то делается попытка продлить размеры «слова» (до 4 и более аминокислот и 12 и более нуклеотидов) сначала без гэпов (пробелов), а затем с их использованием. После максимального продления размеров всех возможных «слов» изучаемой последовательности, определяются выравнивания с максимальным количеством совпадений для каждой пары запрос — последовательность базы данных, и полученная информация фиксируется в структуре SeqAlign. Форматер, расположенный на сервере BLAST, использует информацию из SeqAlign и представляет её различными способами (традиционным, графическим, в виде таблицы).

Для каждой обнаруженной в базе данных программами BLAST последовательности необходимо определить, насколько она сходна с изучаемой последовательностью (запрос) и значимо ли это сходство. Для этого BLAST вычисляет число битов и величину Е (expected value, E-value) для каждой пары последовательностей.

При определении сходства ключевым элементом является матрица замен, так как она определяет показатели сходства для любой возможной пары нуклеотидов или аминокислот. В большинстве программ серии BLAST используется матрица BLOSUM62 (Blocks Substitution matrix 62 % identity, блоковая матрица замен с 62 % идентичности). Исключением являются blastn и megablast (программы, которые выполняют нуклеотид — нуклеотидные сравнения и не используют матрицы аминокислотных замен).

С помощью модифицированных алгоритмов Смита-Уотермана или Селлерса определяются все пары сегментов (продленные «слова»), которые нельзя увеличить, так как это приведёт к уменьшению показателей сходства. Такие пары продленных «слов» называются парами сегментов с максимальным сходством (high-scoring segment pairs, HSP). В случае достаточно большой длины изучаемой последовательностей (m) и последовательности базы данных (n) показатели сходства HSP характеризуются двумя параметрами K (размера области поиска) и P (системы подсчёта). Эти показатели необходимо указывать при приведении показателей сходства изучаемой последовательности и последовательности базы данных (S).

Для сравнения показателей сходства различных выравниваний независимо от используемой матрицы, их необходимо преобразовать. Для получения преобразованного показателя сходства (числа битов, B) используют формулу:

B=(P\cdot S-\ln {K})/\ln {2}

Величина B показывает, насколько сходны последовательности (чем больше число битов, тем больше сходство). Так как в формулу расчёта B заложены показатели К и P, то нет необходимости указывать их при приведении значений B. Величина E (Е-value), соответствующая показателю B, показывает достоверность данного выравнивания (чем ниже значение E, тем достовернее выравнивание). Она определяется по формуле:

E=m\cdot n\cdot 2^{-B}

Программы BLAST преимущественно определяют значение E, а не P (вероятности наличия хотя бы одного HSP с показателем, превышающим или равным S). Но при E < 0,01 значения P и E почти идентичны.

Величина E определяется по формуле (2) при сравнении лишь двух аминокислотных или нуклеотидных последовательностей. Сравнение изучаемой последовательности длиной m с множеством последовательностей базы данных может основываться на двух положениях. Первое положение состоит в том, что все последовательности базы данных одинаково сходны с изучаемой. Это подразумевает, что значение E для выравнивания с короткой последовательностью, содержащейся в базе данных, следует приравнять со значением E для выравнивания с длинной последовательностью. Для вычисления значения E по базе данных необходимо умножить значение E, полученное при попарном сравнении, на число последовательностей в ней. Второе положение заключается в том, что изучаемая последовательность более сходна с короткими, а не с длинными последовательностями, потому что последние часто состоят из различных участков (многие белки состоят из доменов). Если предположить, что вероятность сходства пропорциональна длине последовательности, то попарное значение E для последовательности базы данных длиной n надо умножить на N/n, где N — общая длина аминокислот или нуклеотидов в базе данных. Программы BLAST преимущественно используют этот подход для вычисления значений E по базе данных.

Теоретически локальное выравнивание может начинаться с любой пары нуклеотидов или аминокислот выровненных последовательностей. Однако HPS, как правило, не начинаются близко к краю (началу или концу) последовательностей. Для коррекции такого краевого эффекта необходимо вычислять эффективную длину последовательностей. В случае последовательностей длиной более 200 остатков происходит нейтрализация краевого эффекта.

См. также

PSI Protein Classifier

Примечания

S. Altschul, W. Gish, W. Miller, E. Myers, and D. Lipman. Basic local alignment search tool. Journal of Molecular Biology, 215(3):403-410, October 5, 1990. (англ.)

Ссылки

NCBI Blast (англ.)
Презентация о BLAST на русском

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] S. Altschul, W. Gish, W. Miller, E. Myers, and D. Lipman. Basic local alignment search tool. Journal of Molecular Biology, 215(3):403-410, October 5, 1990. (англ.)