Метод дробовика
Метод дробовика (англ. Shotgun sequencing) — метод, используемый для секвенирования длинных участков ДНК. Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК данного организма, на основе которых может быть восстановлена исходная последовательность ДНК[1].
Предпосылкой для возникновения метода дробовика являлся тот факт, что первые методы секвенирования были способны восстанавливать лишь небольшие последовательности ДНК порядка 1000 нуклеотидов[2], следовательно, для секвенирования более длинных последовательностей требовалось разработать новый подход. При секвенировании методом дробовика ДНК случайным образом фрагментируется на мелкие участки, которые затем секвенируют любым доступным методом, например, методом секвенирования по Сэнгеру. Полученные перекрывающиеся случайные фрагменты ДНК затем собирают с помощью специального программного обеспечения в одну целую последовательность[1].
Метод дробовика использовался при получении первых полных геномов организмов[1].
Пример
Для примера, допустим, что имеются два случайных фрагмента, полученных методом дробовика:
Цепь | Последовательность |
---|---|
Первоначальная | AGCATGCTGCAGTCATGCTTAGGCTA |
Первый фрагмент | AGCATGCTGCAGTCATGCT------- |
Второй фрагмент | AGCATG-------------------- |
Восстановленная последовательность | AGCATGCTGCAGTCATGCTTAGGCTA |
Данный пример является крайне упрощенным. Однако он отражает одну из важнейших особенностей процесса секвенирования генома методом дробовика. А именно, ни одно из четырёх прочтений, представленных в таблице, не покрывает полностью всю исходную последовательность. Однако исходная последовательность может быть восстановлена исходя из того, что каждый нуклеотид из исходной последовательности встречается хотя бы в одном прочтении, а за счет частичного перекрытия прочтений — более чем в одном. [1].
При секвенировании методом дробовика реальных молекул ДНК получаются миллионы прочтений[3], некоторые из которых могут содержать ошибки, которые затем должны быть собраны в исходную последовательность. Разумеется, работа такого объёма не может быть проделана вручную, поэтому для сборки последовательности ДНК из прочтений используется специальное программное обеспечение. Задача усложняется тем, что ДНК часто содержит повторяющие последовательности, а значит, похожие прочтения могут быть получены из удаленных друг от друга частей ДНК[4].
Для того, чтоб справиться с этой проблемой, секвенирование обычно проводят таким образом, чтобы каждый нуклеотид исходной последовательности встречался не в одном, а сразу во многих прочтениях. Так, например, при секвенировании генома человека использовалось 12-кратное покрытие, то есть каждый нуклеотид в среднем встречался в 12 прочтениях[5].
Секвенирование полного генома методом дробовика
История
Идея использования метода дробовика для секвенирования малых геномов (4000—7000 т.п.н.) была предложена в 1979 году[1]. А два года спустя — в 1981 году — метод дробовика был впервые применен на практике для секвенирования полного генома вируса мозаики цветной капусты[6][7].
Метод
Процесс секвенирования методом дробовика состоит из нескольких этапов. Сначала секвенируемая ДНК подвергается амплификации. Полученные копии ДНК разрезаются на фрагменты с помощью сайт-неспецифичных нуклеаз. Сайт-неспецифичность важна для того, чтобы получались перекрывающиеся фрагменты[8][9]. Из полученных фрагментов строится геномная библиотека путём встраивания фрагментов в некоторый вектор. Из полученной геномной библиотеки случайным образом выбирается некоторое подмножество фрагментов, каждый из которых секвенируется, например, методом Сэнгера. Затем с помощью специального программного обеспечения из полученных нуклеотидных последовательностей фрагментов, называемых прочтениями, собирается нуклеотидная последовательность исходной ДНК[1].
Сборка
В процессе сборки исходной последовательности ДНК перекрывающиеся прочтения собираются в более крупные последовательности, называемые контигами. Контиги представляют из себя непрерывные части восстанавливаемой последовательности ДНК. Контиги в свою очередь объединяются в ещё более крупные последовательности — скаффолды — которые уже не обязательно являются непрерывными частями исходной ДНК и могут содержать пропуски. Если секвенирование проводилось методом парных прочтений, то расстояние между контигами в скаффолде может быть выведено на основании информации о позиции спаренных прочтений[10]. В зависимости от расстояния между контигами могут быть использованы различные методы для заполнения пропусков в скаффолдах. Если зазор мал (5—20 т.п.н.), то данная область амплифицируется с помощью ПЦР, а затем секвенируется. Если зазор большой (> 20 т.п.н.), то пропущенный фрагмент клонируют в специальных векторах, таких как искусственная бактериальная хромосома, с последующим секвенированием вектора[11].
Секвенирование парных прочтений
По мере того, как стали секвенировать все более и более длинные последовательности ДНК, стало понятно, что полезно бывает секвенировать обе цепи ДНК. Во-первых, нередки случаи, когда из-за особенностей конформации ДНК определение нуклеотида на некоторой позиции на одной из цепей крайне затруднительно, тогда как на второй цепи нуклеотид в той же позиции может быть легко определён. Во-вторых, информация о взаимном расположении спаренных прочтений может быть использована для определения расстояния между контигами в скаффолде. Модификация метода дробовика, при которой секвенируются обе цепи ДНК, называется методом секвенирования парных прочтений или «двуствольным» методом дробовика. Данный метод получил широкое распространение и использовался, в частности, при секвенировании генома человека[5].
При секвенировании парных прочтений ДНК разрезается на случайные фрагменты, которые затем группируются по весу (обычно 2, 10, 50 и 150 т.п.н.) и клонируются в векторах. Клоны секвенируют с обоих концов с использованием метода обрыва цепи, в результате которого образуются две коротких последовательности. Каждая последовательность называется конечным прочтением или просто прочтением, а две считанные последовательности с одного и того же клона — парными концевыми. Так как длина прочтений при использовании метода обрыва цепи обычно не превышает 1000 пар оснований, то во всех, кроме самых маленьких клонов, парные концы будут перекрываться редко[12].
Первое опубликованное описание использования метода секвенирования парных концов датировано 1990 годом[13]. Эта работа была посвящена секвенированию человеческого гена гипоксантин-гуанинфосфорибозилтрансферазы, но парные концы в ней использовались лишь для устранения пропусков в последовательности после применения метода дробовика в его классической форме. В 1991 году было опубликовано первое теоретическое описание секвенирования парных концов в его полноценной форме[14], которое предполагало использование фрагментов постоянной длины. В то время считалось, что при секвенировании парных концов оптимально использовать фрагменты, длина которых втрое больше длины прочтений. В 1995 году было показано[12], что при секвенировании парных концов возможно использовать фрагменты разных размеров, тем самым продемонстрировано, что данный подход может быть использован для секвенирования длинных последовательностей ДНК. Впоследствии данный подход активно использовался при секвенировании геномов различных организмов: генома гемофильной палочки в 1995 году[15], генома дрозофилы (плодовой мушки) в 2000 году[16] и наконец генома человека[5] в 2001 году.
Покрытие
Покрытие — это среднее число прочтений, покрывающих одну позицию в реконструированной последовательности. Оно может быть рассчитано исходя из длины исходного генома (), количества прочтений(), и средней длины прочтения (), как: . Также иногда покрытием называется доля позиций генома, покрываемых прочтениями. Высокое покрытие в методе дробовика необходимо, поскольку оно позволяет избавиться от ошибок сборки, связанных с наличием в ДНК повторяющихся последовательностей[17].
Иерархическое секвенирование методом дробовика
Мотивация
Теоретически метод дробовика может быть применен к геномам любого размера, однако изначально возможность его реального применения для полногеномного секвенирования ставилась под сомнение и из-за технических сложностей, возникающих при обработке больших объёмов данных, и из-за дополнительных сложностей, возникающих в связи с наличием огромного количества повторяющихся участков в больших геномах[18]. Возникновение метода иерархического секвенирования сделало возможным применение метода дробовика к большим геномам на практике.
Метод
Амплифицированный геном сначала режут на крупные куски (50—200 т.п.н.) и клонируют в бактериальном хозяине с использованием искусственной бактериальной хромосомы. Поскольку несколько копий генома были разрезаны случайным образом, фрагменты, также именующиеся BAC-контигами, содержащиеся в этих клонах, имеют разные концы, а значит можно найти скаффолд, имеющий удовлетворительное покрытие и покрывающий весь геном целиком. Такой скаффолд называется покрывающим путем[19].
После того как покрывающий путь найден, BAC-контиги, формирующие этот путь, режутся случайным образом на более мелкие фрагменты, которые затем секвенируются с помощью метода дробовика. Хотя нуклеотидные последовательности BAC контигов неизвестны, можно определить их расположение друг относительно друга, а эту информацию впоследствии использовать для построения покрывающего пути[19].
Перекрывающиеся клоны могут быть идентифицированы несколькими способами. Один из способов — это использование небольшой радиоактивно или химически помеченной последовательности ДНК (STS). Такая последовательность гибридизируется на микрочипе, на котором воспроизводятся клоны[19]. Таким образом идентифицируются все клоны, содержащие помеченную последовательность. Конец одного из этих клонов секвенируется и используется как новая STS-последовательность. Такой итеративный процесс называется хромосомной ходьбой[20].
Другой способ идентификации пересекающихся клонов заключается в использовании ферментов рестрикции. Определённый участок генома обрабатывается набором нуклеаз рестрикции, после чего производится сравнение размеров полученных фрагментов ДНК. Это позволяет построить рестрикционную карту, на которой указано положение каждого сайта рестрикции относительно других участков[19]. Такой метод геномного отображения называется рестрикционным картированием, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне[21].
Необходимость построения обширной BAC-библиотеки и выбора покрывающего пути делает метод иерархического секвенирования значительно более медленным и трудоёмким в сравнении с полногеномным секвенированием методом дробовика. И теперь, когда технологии позволяют производить необходимые объёмы вычислений достаточно быстро, а данные стали достаточно достоверными, полногеномное секвенирование методом дробовика вытесняет иерархическое секвенирование, так как является более эффективным как из соображений скорости, так и из соображения издержек[18].
Метод дробовика и методы секвенирования нового поколения
Классический метод дробовика был основан на методе Сэнгера и являлся наиболее передовым методом секвенирования геномов приблизительно до 2005 года. Метод дробовика применяется и по сей день, однако на смену ему пришли новые технологии секвенирования, в отношении которых часто используется собирательное название технологии секвенирования нового поколения. Эти технологии производят более короткие прочтения (порядка 25—500 bp), но с очень высокой скоростью (порядка миллиона прочтений в день)[3]. Как следствие, увеличивается покрытие, но процесс сборки генома из прочтений становится более вычислительно трудоёмким. Итого методы секвенирования нового поколения в сравнении с методом дробовика требуют больших вычислительных ресурсов, однако позволяют получить последовательность полного генома за более короткий срок[22].
Примечания
- Staden R. A strategy of DNA sequencing employing computer program (англ.) // Nucleic Acids Research. — 1979. — Vol. 6, no. 7.
- Sanger F., Nicklen S., Coulson A. R. DNA sequencing with chain-terminating inhibitors (англ.) // PNAS. — 1977. — Vol. 74, no. 12. — P. 5463—5467.
- Voelkerding K. V., Dames S. A., Durtschi J. D. Next Generation Sequencing: From Basic Research to Diagnostics (англ.) // Clinical Chemistry. — 2009. — Vol. 55, no. 4. — P. 41—47.
- Jason de Koning A. P., Gu W., Castoe T. A. et al. Repetitive Elements May Comprise Over Two-Thirds of the Human Genome (англ.) // PLoS Genetics. — 2011. — Vol. 7, no. 12.
- Lander E. S., Linton L. M., Birren B. et al. Initial sequencing and analysis of the human genome (англ.) // Nature. — 2001. — Vol. 409, no. 6822. — P. 860—921.
- Gardner R. C., Howarth A. J., Hahn P., Brown-Luedi M., Shepherd R. J., Messing J. The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing (англ.) // Nucleic Acids Research. — 1981. — Vol. 9, no. 12. — P. 2871—2888.
- Doctrow B. Profile of Joachim Messing (англ.) // PNAS. — 2016. — Vol. 113, no. 29. — P. 7935—7937.
- Staden R. A strategy of DNA sequencing employing computer programs (англ.) // Nucleic Acids Research. — 1979. — Vol. 6, no. 7. — P. 2601—2610.
- Anderson S. Shotgun DNA sequencing using cloned DNase I-generated fragments (англ.) // Nucleic Acids Research. — 1981. — Vol. 9, no. 13. — P. 3015—3027.
- Fullwood M. J., Wei C. L., Liu E. T. et al. Next-generation DNA sequencing of paired-end tags (PET) for transcriptome and genome analyses (англ.) // Genome Research. — 2009. — Vol. 19, no. 4. — P. 521—532.
- Gregory S. Contig Assembly (англ.) // Encyclopedia of Life Sciences. — 2005.
- Roach J. C., Boysen C., Wang K., Hood L. Pairwise end sequencing: a unified approach to genomic mapping and sequencing (англ.) // Genomics. — 1995. — Vol. 26, no. 2. — P. 345—353.
- Edwards A., Caskey T. Closure strategies for random DNA sequencing (англ.) // A Companion to Methods in Enzymology. — 1991. — Vol. 3, no. 1. — P. 41—47.
- Edwards A., Voss H., Rice P., Civitello A., Stegemann J., Schwager C., Zimmerman J., Erfle H., Caskey T., Ansorge W. Automated DNA sequencing of the human HPRT locus (англ.) // Genomics. — 1990. — Vol. 6, no. 4. — P. 593—608.
- Fleischmann R. D. et al. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd (англ.) // Science. — 1995. — Vol. 269, no. 5223. — P. 496—512.
- Adams M. D. et al. The genome sequence of Drosophila melanogaster (англ.) // Science. — 2000. — Vol. 287, no. 5461. — P. 2185—2195.
- Meyerson M., Gabriel S., Getz G. Advances in understanding cancer genomes through second-generation sequencing. (англ.) // Nature Reviews Genetics. — 2010. — Vol. 11, no. 10. — P. 685—696.
- Venter J. C. Shotgunning the Human Genome: A Personal View (англ.) // Encyclopedia of Life Sciences. — 2006.
- Dear P. H. Genome Mapping (англ.) // Encyclopedia of Life Sciences. — 2005.
- Chinault A. C., Carbon J. Overlap hybridization screening: Isolation and characterization of overlapping DNA fragments surrounding the leu2 gene on yeast chromosome III (англ.) // Gene. — 1979. — Vol. 5, no. 2. — P. 111—126.
- Gibson G., Muse S. V. A Primer of Genome Science. (англ.) // Encyclopedia of Life Sciences. — 2006. — Vol. 3rd, no. 84.
- Metzker M. L. Sequencing technologies - the next generation (англ.) // Nature Reviews Genetics. — 2010. — Vol. 11, no. 1. — P. 31—46.
Ссылки
- Shotgun sequencing comes of age (недоступная ссылка). The Scientist. Дата обращения: 5 апреля 2015. Архивировано 14 мая 2011 года.
- Shotgun sequencing finds nanoorganisms - Probe of acid mine drainage turns up unsuspected virus-sized Archaea (недоступная ссылка). SpaceRef.com. Дата обращения: 23 декабря 2006. Архивировано 12 июня 2013 года.
- Genomic shotgun sequencing (недоступная ссылка). biology science. Дата обращения: 11 апреля 2009. Архивировано 12 июня 2013 года.