FASTA
FASTA — текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодов. Из-за его простоты и практичности в настоящее время используется большинством программ работы с биологическими последовательностями. Файлы данного формата могут содержать названия последовательностей, их идентификаторы в базах данных и комментарии. В зависимости от природы содержащихся в нем биологических последовательностей, файл формата FASTA может иметь различные расширения.
формат FASTA | |
---|---|
Расширение |
.fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa |
MIME-тип | chemical/seq-aa-fasta, chemical/seq-na-fasta[1] |
Разработчик |
Дэвид Липман[2] Уильям Пирсон[2] |
Опубликован | 1985 |
Тип формата | формат файла и textual data format[d] |
Расширен из | ASCII for FASTA |
Развит в | FASTQ |
Сайт | ncbi.nlm.nih.gov/BLAST/fasta.shtml |
История и распространение
Формат придуман Дэвидом Липманом и Уильямом Пирсоном[2][3] в 1985 году для одноименной программы, предназначенной для поиска в больших базах последовательностей, гомологичных данной. Первичное описание формата было произведено ими в документации этой программы, а сейчас его описание является частью документации программы BLAST[4].
Простота FASTA-формата позволяет легко осуществлять различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования, таких как Python[5], Ruby[6], Perl[7], Java[8].
Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления данных о биологических последовательностях[9]. Существуют также другие форматы, в том числе используемые в банках данных GenBank[10], EMBL[11] и UniProt[12].
Формат
Последовательности в формате FASTA начинаются с однострочного описания, за которым следуют строки, содержащие собственно последовательность. Описание отмечается символом «больше» («>») в первой колонке. Слово за этим символом и до первого пробела является идентификатором последовательности, далее следует опциональное описание. Следующие несколько строк могут иметь первым символом точку с запятой («;»), и тогда они будут восприниматься как комментарии. На данный момент многие базы данных и программы не распознают комментарии, поэтому они мало распространены. Дальше следуют строки, содержащие собственно биологические последовательности. Обычно строки в формате FASTA ограничены длиной от 80 до 120 символов (по историческим причинам), но современные программы распознают последовательности, записанные полностью в одну строку. В один файл могут быть записаны несколько последовательностей, таким образом получается мульти-FASTA файл, однако перед каждой последовательностью должен стоять свой идентификатор[13]. Пример одной последовательности в формате FASTA:[14]
>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE
Идентификатором этой последовательности является gi|31563518|ref|NP_852610.1|
.
Последовательности записываются в виде однобуквенных кодов нуклеотидов или аминокислот, совпадающих с их стандартными однобуквенными обозначениями, принятыми IUB/ИЮПАК, в порядке от 5'- к 3'-концу для нуклеиновых кислот и от N- к С-концу для аминокислот, в них допускаются пробелы, символы могут быть как в верхнем, так и в нижнем регистре. Числа, служебные символы конца строки и табуляции игнорируются программами работы с последовательностями[4].
Нуклеиновые кислоты обозначаются[15]:
Код | Значение | Мнемоника |
---|---|---|
A | A | Adenine — Аденин |
C | C | Cytosine — Цитозин |
G | G | Guanine — Гуанин |
T | T | Thymine — Тимин (5-метилурацил) |
U | U | Uracil — Урацил |
R | A, G | puRine — Пурины |
Y | C, T, U | pYrimidines — Пиримидины |
K | G, T, U | Кетоновые основания |
M | A, C | Основания с аминогруппами (aMino) |
S | C, G | Сильное (Strong) взаимодействие в комплементарной паре (три водородные связи) |
W | A, T, U | Слабое (Weak) взаимодействие в комплементарной паре (две водородные связи) |
B | не A (то есть C, G, T или U) | B идёт за A |
D | не C (то есть A, G, T или U) | D идёт за C |
H | не G (A, C, T или U) | H идёт за G |
V | не T и не U (A, C или G) | V идёт за U |
N | A C G T U | Любой (aNy) нуклеотид |
Для аминокислот есть 22 обычных кода (канонические аминокислоты, селеноцистеин и пирролизин), 4 специальных (обозначения множеств аминокислот) и * для обозначения стоп-кодона (в формальных трансляциях генов)[16][17].
Код аминокислоты | Значение |
---|---|
A | Аланин |
B | Аспарагиновая кислота (D) или Аспарагин (N) |
C | Цистеин |
D | Аспарагиновая кислота |
E | Глутаминовая кислота |
F | Фенилаланин |
G | Глицин |
H | Гистидин |
I | Изолейцин |
J | Лейцин (L) или Изолейцин (I) |
K | Лизин |
L | Лейцин |
M | Метионин |
N | Аспарагин |
O | Пирролизин |
P | Пролин |
Q | Глутамин |
R | Аргинин |
S | Серин |
T | Треонин |
U | Селеноцистеин |
V | Валин |
W | Триптофан |
Y | Тирозин |
Z | Глутаминовая кислота (E) или Глутамин (Q) |
X | Любая аминокислота |
* | Терминация трансляции |
Fasta-формат используется также для файлов, содержащих выравнивания биологических последовательностей. В этом случае в каждую последовательность в места, соответствующие позициям, не представленным в данной последовательности, вставляются символы «гэпов» (обычно это дефис или точка), в результате все последовательности в файле должны иметь одинаковую длину[18].
Идентификаторы последовательностей
Центр NCBI определил правила создания уникальных идентификаторов последовательностей (SeqID). В строку описания допускается вносить следующие варианты идентификаторов[19]:
Тип | Формат(ы) | Пример(ы) |
---|---|---|
Локальный (не отсылает к внешним базам данных) | lcl|целое число
|
lcl|123
|
GenInfo идентификатор последовательности остова | bbs|целое число |
bbs|123 |
GenInfo тип молекулы остова | bbm|целое число |
bbm|123 |
GenInfo ID импорта | gim|целое число |
gim|123 |
GenBank | gb|код доступа|локус |
gb|M73307|AGMA13GT |
EMBL | emb|код доступа|локус |
emb|CAM43271.1| |
PIR | pir|код доступа|название |
pir||G36364 |
SWISS-PROT | sp|код доступа|название |
sp|P01013|OVAX_CHICK |
Патент | pat|страна|патент|номер последовательности |
pat|US|RE33188|1 |
Патентная заявка | pgp|страна|номер заявки|номер последовательности |
pgp|EP|0238993|7 |
RefSeq | ref|код доступа|название |
ref|NM_010450.1| |
Ссылка на базу данных не из этого списка | gnl|база данных|целое число
|
gnl|taxon|9606
|
Интегрированная база данных GenInfo | gi|целое число |
gi|21434723 |
DDBJ | dbj|код доступа|локус |
dbj|BAC85684.1| |
PRF | prf|код доступа|название |
prf||0806162C |
PDB | pdb|запись|цепь |
pdb|1I4L|D |
GenBank с аннотациями от третьих лиц | tpg|код доступа|название |
tpg|BK003456| |
EMBL с аннотациями от третьих лиц | tpe|код доступа|название |
tpe|BN000123| |
DDBJ с аннотациями от третьих лиц | tpd|код доступа|название |
tpd|FAA00017| |
TrEMBL | tr|код доступа|название |
tr|Q90RT2|Q90RT2_9HIV1 |
Вертикальные чёрточки («|») в списке сверху являются не разделителями, а частью формата. Можно ставить идентификаторы подряд, разделяя их чертами. В случае, если какое-то из полей идентификатора оставлено пустым, для обеспечения совместимости с программами необходимо ставить две черты подряд[20].
Расширения файлов
Файлы формата fasta могут иметь различное расширение в зависимости от природы представленных в них биологических данных[21][22].
Расширение | Значение | Примечания |
---|---|---|
fasta | Обычные данные fasta | Любые данные fasta. Иногда также .fa, .seq, .fsa, .fas |
fna | аббр. от «fasta nucleic acid» | Для описания нуклеотидных последовательностей. |
ffn | Кодирующие участки нуклеотидов | Содержат кодирующие участки геномов. |
faa | аббр. от «fasta amino acid» | Содержат аминокислотные последовательности. Используется расширение mpfa при хранении нескольких белков в одном файле. |
frn | Некодирующая РНК в формате FASTA | Содержат некодирующие РНК в алфавите ДНК, например тРНК, рРНК |
afa, mfa | Выравнивание в формате FASTA (a от «alignment», m от «multiple») | Содержат выравнивания биологических (нуклеотидных или аминокислотных) последовательностей |
Примечания
- FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, reference, 2007-2012 . (англ.)
- Lipman D., Pearson W. Rapid and sensitive protein similarity searches (англ.) // Science. — 1985. — 22 March (vol. 227, no. 4693). — P. 1435—1441. — ISSN 0036-8075. — doi:10.1126/science.2983426.
- Pearson W. R., Lipman D. J. Improved tools for biological sequence comparison. (англ.) // Proceedings of the National Academy of Sciences. — 1988. — 1 April (vol. 85, no. 8). — P. 2444—2448. — ISSN 0027-8424. — doi:10.1073/pnas.85.8.2444.
- BLAST topics. A. Query Input and database selection. Accepted Input Formats. 1. FASTA . NCBI. Дата обращения: 30 мая 2020.
- Peter J. A. Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: freely available Python tools for computational molecular biology and bioinformatics (англ.) // Bioinformatics. — 2009-06-01. — Vol. 25, iss. 11. — P. 1422–1423. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btp163.
- Naohisa Goto, Pjotr Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: bioinformatics software for the Ruby programming language (англ.) // Bioinformatics. — 2010-10-15. — Vol. 26, iss. 20. — P. 2617–2619. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btq475.
- Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. The Bioperl Toolkit: Perl Modules for the Life Sciences (англ.) // Genome Research. — 2002-10-01. — Vol. 12, iss. 10. — P. 1611–1618. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.361602.
- Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: A community driven open-source bioinformatics library (англ.) // PLOS Computational Biology. — 2019-08-02. — Vol. 15, iss. 2. — P. e1006791. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1006791.
- EMBOSS Users Guide . emboss.open-bio.org. Дата обращения: 22 мая 2020.
- Sample GenBank Record . www.ncbi.nlm.nih.gov. Дата обращения: 19 мая 2020.
- European Nucleotide Archive annotated/assembled sequences User Manual (англ.) (txt). European Nucleotide Archive. European Bioinformatics Institute (12 марта 2020). Дата обращения: 8 июня 2020.
- UniProt Knowledgebase User Manual (англ.). ExPASy Bioinformatics Resource Portal (22 апреля 2020). Дата обращения: 8 июня 2020.
- Multi-FASTA format - Metagenomics . www.metagenomics.wiki. Дата обращения: 19 мая 2020.
- Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. MAP 1A and MAP 1B are structurally related microtubule associated proteins with distinct developmental patterns in the CNS (англ.) // The Journal of Neuroscience. — 1989-05-01. — Vol. 9, iss. 5. — P. 1712–1730. — ISSN 1529-2401 0270-6474, 1529-2401. — doi:10.1523/JNEUROSCI.09-05-01712.1989.
-
- Codes Used in Sequence Description (англ.). www.ddbj.nig.ac.jp. Дата обращения: 16 апреля 2020.
- IUPAC-IUB Joint Commission on Biochemical Nomenclature (JCBN). Nomenclature and symbolism for amino acids and peptides. Recommendations 1983 (англ.) // Biochemical Journal. — 1984. — 15 April (vol. 219, no. 2). — P. 345—373. — ISSN 0264-6021. — doi:10.1042/bj2190345.
- Aligned FASTA Format . www.cgl.ucsf.edu. Дата обращения: 22 мая 2020.
- NCBI C++ Toolkit Book. FASTA Sequence ID Format . NCBI C++ Toolkit. Дата обращения: 30 мая 2020.
- Leonard Shonda A., Littlejohn Timothy G., Baxevanis Andreas D. Common File Formats (англ.) // Current Protocols in Bioinformatics. — 2006. — December (vol. 16, no. 1). — ISSN 1934-3396. — doi:10.1002/0471250953.bia01bs16.
- Zahoorullah S MD. A Textbook of Biotechnology. — SM Online Publishers LLC, 2015. — С. 6-7. — ISBN 9780996274531.
- Alignment Fileformats . www.jalview.org. Дата обращения: 1 апреля 2020.
Ссылки
- Конвертер файлов биологических последовательностей (англ.)
- Инструкция по созданию файла FASTA-формата вручную (англ.)