PSI Protein Classifier
PSI Protein Classifier — компьютерная программа, позволяющая обобщать результаты как последовательных, так и независимых итераций программы PSI-BLAST. Программа определяет принадлежность найденных blast'ом белков ранее известным семействам и разбивает оставшиеся белки на группы. Она позволяет количественно (числом итераций) оценить уровень родства между различными семействами белков-гомологов.
Формат анализируемых файлов
PSI Protein Classifier использует файлы, генерируемые на сайте NCBI программой PSI-BLAST. При запуске скрининга базы данных аминокислотных последовательностей с помощью PSI-BLAST надо последовательность белка, используемую в качестве запроса (query), вводить в FASTA-формате и присваивать ей бинарное имя, разделённое дефисом. При этом первая часть имени должна быть обозначением семейства, к которому она относится. Необходимо последовательно (после каждой итерации) сохранять, используя режим «Use old BLAST report format», web-страницы с результатами работы программы PSI-BLAST в виде текстовых (.txt) файлов в папке PSI-Blast (эти файлы именуются «blast-файлами»).
В качестве вспомогательных файлов PSI Protein Classifier использует файлы со списками семейств. Наличие таких файлов не является обязательным. Файлы этого типа являются текстовыми (.txt) и помещаются в папку FamilyName (эти файлы именуются «family-файлами»). В первой строчке каждого из этих файлов указывается имя семейства, при этом ему предшествуют любые два слова, а за ним идёт как минимум ещё одно. В последующих строчках указываются номера белков (GenPept accession number), относящихся к данному семейству — по одному на строчку. Важно, чтобы каждый номер содержал указание версии белка, то есть последней цифре номера предшествовала точка. Программа может также использовать в качестве family-файлов готовые списки семейств из базы данных CAZy, сохранённые в виде текстовых (.txt) файлов. Следует отметить, что база данных CAZy охватывает семейства гликозил-гидролаз и целого ряда других ферментов, действующих на углеводы и их производные.