生のゲノムデータの調査を始めるには

次世代シーケンシング

DNAは、すべての生物の設計図をコードする分子です。DNAは、一般的に文字と呼ばれる4つの構成要素からなる長さの異なる鎖状の分子です。DNAの4つの文字は、アデニン(A)、チミン(T)、シトシン(C)、グアニン(G)です。DNA分子の文字の配列を決定する方法をシーケンシングといいます。次世代シークエンシング(NGS)は、数十億個のDNA分子を並列に読み取ることができるハイスループットDNAシークエンシング技術である。これにより、数十億個の短いシーケンシングリード(〜150文字)が生成され、それがテキストファイルとして ファストキュー形式.

を発売しました。 Nebula Explore Nebula Exploreは、個人向けの全ゲノムシークエンシングを手頃な価格で利用できるようにするために開発されました。Nebula Exploreは、1塩基あたりの平均カバレッジが0.4倍の浅い全ゲノムシークエンシングで、ヒトゲノムの~64億塩基のうち~13億塩基のシークエンシングが可能です。これと比較して、23andMeやAncestryDNAを含む他のほとんどのパーソナルゲノミクス企業は、マイクロアレイベースのジェノタイピングを使用しており、ヒトゲノムを~50万の位置でしか読み取ることができません。

シーケンスデータ処理

ヒトゲノムの連続的なDNA配列は、短いシークエンシングリード間のオーバーラップを利用して計算で再構成することができます。ゲノムの再構成は、以下のような場合に容易に行うことができます。 参照ゲノム を利用することができます。参照ゲノムの利用は、ある種の代表者が遺伝学的に非常に類似していること、例えば、ヒトゲノムの配列がほぼ同じであることから可能です。例えば、Nebula Exploreについては、ヒトの参照ゲノムであるGRCh37(hg19)を利用しています。ここでは、FASTQファイルに格納されている短いリードをGRCh37参照ゲノムにマッピングするために、配列アライメントツールを使用します(図1)。これにより バイナリアライメントマップ(BAM) ファイルと関連する BAI (Binary Alignment Index) ファイルを生成します。BAM ファイルを生成した後は、アライメント処理中に情報が失われることがないため、FASTQ ファイルは通常破棄されます。BAM ファイルは、例えば サムツール:

samtools fastq input.bam > output.fastq

DNA変異体の呼び出し
図1.短いリードを参照ゲノムに整列させてゲノムを再構成したもの。

シーケンスリードを参照ゲノムにアラインメントした後、シーケンスされたゲノムと参照ゲノムの違いを識別することができます。この処理は「バリアントコール」と呼ばれ、VCF(Variant Call Format)というファイルが作成されます。ここでは、配列決定されていない部分のゲノムのインピュートを 1000ゲノムプロジェクト.これにより、全ゲノムの平均的な精度は 1 塩基あたり ~ 99% となり、祖先や形質の予測には十分に高い精度が得られます。疾患リスク、キャリアの状態、ファーマコゲノミクスについての洞察を得たいユーザーのために、ゲノムの各位置を平均30回配列決定することにより、より高い精度を達成する臨床グレードの全ゲノム配列決定を近日中に開始する予定です。

ゲノムデータを探る

Nebula Explore報告の最初のイテレーションには、先祖の予測と27の異なる形質が含まれています。しかし、個人のゲノム配列決定は、特に科学が進歩し、新しい発見がなされるにつれて、より多くの洞察が継続的に得られる旅の始まりであることを理解することが重要です。このように、私たちは定期的に新しい形質をレポートに追加するとともに、先祖代々の予測の粒度を継続的に高めていきます。

また、ユーザーのゲノムデータ(BAM, BAI, VCFファイル)にアクセスできるようにし、ユーザー自身でデータを探索するように招待しています。個人のゲノムデータを第三者のウェブサイトにアップロードすることはプライバシーリスクを伴うため、私たちは個人のコンピュータでローカルに使用できるツールをいくつか紹介したいと思います。

ゲノムブラウザでのBAMファイルの閲覧

ゲノムブラウザは、参照ゲノム配列にアラインメントされ、BAMファイルに保存されているリードをブラウズするために使用されます。を試すことができます。 インタラクティブ・ゲノム・ビューア(IGV.

  1. IGVのダウンロード をお使いのOSに合わせてインストールしてください。
  2. ネビュラゲノミクスアカウントからBAMとBAIファイルをダウンロードしてください。
  3. IGV を開き、参照ゲノムを hg19 に設定し(左上のドロップダウン)、パフォーマンスを向上させるためにダウンロードします(図 2)。これを行うには、メニューバーの "Genomes" → "Load Genome for Server ... "Load Genome for Server ..." → "Human hg19 "を選択し、"Download Sequence "のボックスにチェックを入れます。
  4. BAMファイルをIGVにドラッグ&ドロップします。BAIファイルはBAMファイルと同じフォルダにある必要があります。
  5. 染色体を選択するか(1)、遺伝子名で検索するか(2)して、配列をズームインする(3)ことで、参照ゲノムにアラインメントされたシークエンスリードを見ることができます。
インタラクティブなゲノムビューア
図2 インタラクティブゲノムビューア2 インタラクティブなゲノムビューア

mtDNAハプログループの決定

ミトコンドリア は、細胞の化学エネルギー供給の大部分を生成する細胞小器官です。ミトコンドリアもまた、母親から子供に受け継がれるゲノムを持っています。 ヒトミトコンドリアDNA(mtDNA)ハプログループ は、女性系の進化経路の主要な分岐点を表しています。これにより、現代人がアフリカに起源を持ち、その後世界中に広がっていったことを追跡することができます(図3)。

mtDNAハプログループ
図3: 世界中のmtDNAハプログループ。FamilyTreeDNAより引用。

BAMファイル内のmtDNAリードを解析することで、ハプログループを決定することができます。このためには、BAM解析キットを使用することができます。

  1. をダウンロードして起動します。 BAM分析キット. This tool is available for Windows PCs only. (Windowsのトラブルシューティング)
  2. 図4のようにmtDNA(1)の「M」を選択します。他のすべてのボックスのチェックを外します。
  3. 参照」(2)をクリックして、BAMファイルを選択します。
  4. 分析開始をクリックします。処理には1時間ほどかかることがあります。
  5. MtDNA_Haplogroup.txtファイルを開いて、自分のmtDNAハプログループを探します。
BAM分析キット
図4.BAM分析キットを用いたmtDNAハプログループの決定。

VCFファイルを23andMeファイルに変換する

23andMeファイルフォーマットは、現在、個人のゲノムデータのための最も一般的なフォーマットです。したがって、ほとんどのコンシューマー向けツールは23andMe形式のファイルを入力として使用します。これらのツールを使用するには、VCFファイルを23andMe形式のファイルに変換することができます。Nebula Explore VCFファイルには、23andMeファイルよりも多くの情報が含まれていることに注意してください。23andMe形式に変換することで、一般的に使用されるツールとの互換性のために多くの情報を破棄しています。

1.ダウンロード VCF-to-23andMe.このディレクトリにある2つのスクリプトにはPython 3が必要です。

2. First, run the  data_to_db.py script using your VCF file as input. This generates the genome.db file:

> python3 data_to_db.py input.vcf.gz vcf genome.db

3.次に、genome.dbファイルを入力としてdb_to_23.pyスクリプトを実行します。これにより、23andMe形式のファイルが生成されます。

> python3 db_to_23.py genome.db blank_v3.txt 23andMe.txt

ネアンデルタール人のDNAの割合の計算

ネアンデルタール人は4万年前までユーラシア大陸内に住んでいた人類の絶滅種です。というのも、ネアンデルタール人は、今から4万年前までユーラシア大陸内に生息していました。 ネアンデルタール人は現代人と交配したほとんどの人は ネアンデルタール人のDNAを持っている古代の計算機を使って ネアンデルタール人や他の古代ヒトの親戚と ゲノムの共有量を調べることができます

  1. ダウンロードと起動 古代の計算機 (図5)を参照してください。このツールはWindows PCのみで利用可能です。
  2. (1)の遺伝子データと照合したい古代DNAサンプルを選択します。例えば、「アルタイ・ネアンデルタール人」を選択します。
  3. BROWSE」をクリックし、VCFファイルから生成した23andMe形式のゲノムデータを選択します。計算は数秒で完了します。
古代の計算機は、ヒトゲノムのネアンデルタール人のDNAを見つけるために
図5.古代の電卓。

データ探査のためのより多くのリソース

この投稿を共有する
facebookでシェアする
googleでシェアする
twitterでシェアする
linkedinでシェアする
printでシェアする
emailでシェアする
jaJapanese
en_USEnglish fr_FRFrench es_ESSpanish ru_RURussian zh_CNChinese jaJapanese