Как начать изучение исходных геномных данных

Секвенирование следующего поколения

ДНК – это молекула, которая кодирует план каждого живого организма. ДНК – это цепочечная молекула переменной длины, состоящая из четырех строительных блоков, обычно называемых буквами. Четыре буквы ДНК – это аденин (A), тимин (T), цитозин (C) и гуанин (G). Методы определения буквенной последовательности молекул ДНК называются секвенированием. Секвенирование следующего поколения (NGS) – это высокопроизводительная технология секвенирования ДНК, которая позволяет считывать миллиарды молекул ДНК параллельно. Это генерирует миллиарды коротких последовательных чтений (~ 150 букв), которые хранятся в текстовых файлах в Формат FASTQ .

Мы запустили Туманность исследовать для создания доступного входа в персональное секвенирование всего генома. Nebula Explore – это неглубокое полногеномное секвенирование со средним охватом 0,4x на основание, что дает ~ 1,3 миллиарда секвенированных оснований из ~ 6,4 миллиарда оснований в геноме человека. Для сравнения, большинство других компаний, занимающихся персональной геномикой, в том числе 23andMe и AncestryDNA, используют генотипирование на основе микрочипов, при котором геном человека считывается только на ~ 500 000 позиций.

Последовательность обработки данных

Непрерывную последовательность ДНК человеческого генома можно реконструировать с помощью вычислений, используя перекрытия между короткими считываниями секвенирования. Реконструкция генома может быть облегчена, если эталонный геном доступен, с которым можно выровнять чтения секвенирования. Использование эталонных геномов возможно, потому что представители одного вида генетически очень похожи – например, любые две последовательности генома человека почти идентичны. Например, для Nebula Explore мы используем эталонный геном человека GRCh37 (hg19). Таким образом, инструмент выравнивания последовательностей используется для сопоставления коротких чтений, хранящихся в файле FASTQ, с эталонным геномом GRCh37 (рисунок 1). Это порождает Карта двоичного выравнивания (BAM) файл и связанный файл BAI (индекс двоичного выравнивания). Файлы FASTQ обычно удаляются после создания файлов BAM, поскольку во время процесса выравнивания информация не теряется. Файлы BAM можно легко преобразовать обратно в файлы FASTQ, например, используя Samtools :

samtools fastq input.bam> output.fastq

Вызов варианта ДНК
Рисунок 1. Реконструкции генома путем сопоставления коротких чтений с эталонным геномом.

После того, как чтения секвенирования сопоставлены с эталонным геномом, можно идентифицировать различия между секвенированным геномом и эталонным геномом. Этот процесс называется «вызовом варианта» и создает файлы в формате вызова варианта (VCF). Таким образом, мы вменяем не секвенированную часть генома, используя набор эталонных геномов, которые были созданы Проект 1000 геномов . Это дает среднюю точность ~ 99% на основание по всему геному, что достаточно высоко для предсказания происхождения и черт. Для пользователей, которые хотят получить представление о рисках заболеваний, статусе носителей и фармакогеномике, мы скоро запустим наше клиническое секвенирование всего генома, которое обеспечивает более высокую точность за счет секвенирования каждой позиции в геноме в среднем 30 раз.

Изучение геномных данных

Первая итерация отчетов Nebula Explore включает в себя предсказание происхождения и 27 различных черт. Однако важно понимать, что персональное секвенирование генома – это начало пути, который будет постоянно приносить больше информации, особенно по мере развития науки и новых открытий. Таким образом, мы будем регулярно добавлять новые черты в наши отчеты, а также постоянно повышать степень детализации наших прогнозов по происхождению.

Мы также предоставляем нашим пользователям доступ к их геномным данным (файлы BAM, BAI и VCF) и приглашаем их самостоятельно изучить свои данные. Поскольку загрузка личных геномных данных на сторонние веб-сайты создает риски для конфиденциальности, мы хотим представить несколько инструментов, которые можно использовать локально на персональных компьютерах.

Просмотр файлов BAM с помощью браузера генома

Браузеры генома используются для просмотра чтений, которые выровнены с эталонной последовательностью генома и хранятся в файле BAM. Вы можете попробовать Интерактивный просмотрщик генома (IGV) .

  1. Скачать IGV для вашей операционной системы и установите ее.
  2. Загрузите файлы BAM и BAI через свою учетную запись Nebula Genomics.
  3. Откройте IGV, установите для эталонного генома значение hg19 (раскрывающийся список в левом верхнем углу) и загрузите его для повышения производительности (рисунок 2). Для этого перейдите в строку меню и выберите «Геномы» → «Загрузить геном для сервера…» → «Human hg19» и установите флажок «Загрузить последовательность».
  4. Перетащите файл BAM в IGV. Ваш BAI-файл должен находиться в той же папке, что и ваш BAM-файл.
  5. Просмотрите показания секвенирования, выровненные по эталонному геному, выбрав хромосомы (1) или проведя поиск по названиям генов (2), а затем увеличив масштаб последовательности (3).
Интерактивный просмотрщик генома
Рисунок. 2 Интерактивный просмотрщик генома

Определение гаплогруппы мтДНК

Митохондрии представляют собой клеточные органеллы, которые генерируют большую часть запаса химической энергии клетки. Митохондрии также имеют собственный геном, который мать передает своим детям. Гаплогруппы митохондриальной ДНК человека (мтДНК) представляют собой основные точки ветвления на эволюционном пути женского рода. Это позволяет проследить происхождение современного человека в Африке и его последующее распространение по земному шару (рис. 3).

гаплогруппы мтДНК
Рисунок 3. Гаплогруппы мтДНК по всему миру. Адаптировано из FamilyTreeDNA.

Вы можете определить свою гаплогруппу, анализируя чтения мтДНК в вашем BAM-файле. Для этого вы можете использовать набор для анализа BAM.

  1. Скачайте и запустите Комплект для анализа БАМ . Этот инструмент доступен только для ПК с Windows. ( Устранение неполадок Windows )
  2. Выберите «M» для мтДНК (1), как показано на рисунке 4. Снимите все остальные флажки.
  3. Нажмите «Обзор» (2) и выберите свой файл BAM.
  4. Щелкните Начать анализ. Обработка может занять до часа.
  5. Откройте файл MtDNA_Haplogroup.txt, чтобы найти свою гаплогруппу мтДНК.
Комплект для анализа БАМ
Рисунок 4. Определение гаплогруппы мтДНК с помощью BAM Analysis Kit.

Преобразование файлов VCF в файлы 23andMe

Формат файла 23andMe в настоящее время является самым популярным форматом личных геномных данных. Таким образом, большинство ориентированных на потребителя инструментов принимают на вход файлы в формате 23andMe. Чтобы использовать эти инструменты, вы можете преобразовать файл VCF в файл в формате 23andMe. Обратите внимание, что файлы Nebula Explore VCF содержат гораздо больше информации, чем файлы 23andMe. Конвертируя в формат 23andMe, мы отбрасываем много информации ради совместимости с обычно используемыми инструментами.

1. Скачать VCF-к-23andMe . Для двух скриптов в этом каталоге требуется Python 3.

2. Сначала запустите сценарий data_to_db.py, используя ваш файл VCF в качестве входных данных. Это создает файл genome.db:

> python3 data_to_db.py input.vcf.gz vcf genome.db

3. Затем запустите сценарий db_to_23.py, используя файл genome.db в качестве входных данных. Это создает файл в формате 23andMe:

> python3 db_to_23.py genome.db blank_v3.txt 23andMe.txt

Расчет процента ДНК неандертальца

Неандертальцы – это вымерший вид людей, которые жили в Евразии до 40 000 лет назад. Потому как Неандертальцы скрестились с современными людьми , у большинства людей в геноме есть ДНК неандертальцев. Вы можете использовать Древний калькулятор, чтобы узнать, какая часть вашего генома разделяется с неандертальцами и другими древними родственниками человека.

  1. Скачать и запустить Древний калькулятор (Рисунок 5). Этот инструмент доступен только для ПК с Windows.
  2. Выберите образец древней ДНК, с которым вы хотите сопоставить свои генетические данные (1). Например, выберите «Алтайский неандерталец».
  3. Нажмите «ОБЗОР» и выберите свои геномные данные в формате 23andMe, которые вы создали из своего файла VCF. Расчет занимает всего несколько секунд.
Древний калькулятор для поиска ДНК неандертальца в геноме человека
Рисунок 5. Древний калькулятор.

Дополнительные ресурсы для исследования данных