TruSeqテクノロジーは,データ精度,研究拡張性,およびユーザーエクスペリエンスを最適化することを目指したイルミナのシーケンスにおける進歩を象徴しています。イルミナのシーケンスシステムでは,幅広いアプリケーションにおいて非常に正確なデータが得られます。
典型的なシーケンスワークフローは,サンプル/ライブラリー調製,クラスター増幅,DNAシーケンス,イメージ解析/ベースコール,リードアライメント,そしてバリアントの検出で構成されます。これらのステップのうち1つでも得られる結果に不備があれば,最終データセットのクオリティも損なわれます。TruSeqテクノロジーにより,このプロセスの各ステップが最適化されるため,非常に正確なデータが得られ,あらゆる研究プロジェクトで最高水準のクオリティを確保できます。
サンプル精度は,シーケンスワークフローのライブラリー調製段階と関連しています。この段階では,ライブラリー構築に向けてDNAが断片化されます。
ライブラリー中の各断片は,最終的に1個のシーケンスリードに対応するため,ゲノム全体で均一なカバレッジを達成するためには,断片サイズの均一性が高く,ライブラリーが多様であることが重要です。ライブラリーが多様でないために欠失した断片など,ライブラリー調製時に生じるエラーは,シーケンサーで検出することはできません。
ライブラリーに含まれないゲノム部分はシーケンスされないため,データセットにギャップが生じます。これらのギャップは,一部のシーケンス技術に用いられているエラー修復法では修復することができません。
そのため,ライブラリー調製時に生じたエラーはクオリティスコアに反映されません。これは,シーケンスシグナルがクリーンかつエラーなしと表示されるためです。ほとんどのシーケンスプラットフォームで達成可能な最高精度は,サンプル精度によって制限されます。
検出精度は,シーケンスワークフローの第2段階に相当し,クラスター形成,DNAシーケンス,そして一次データ解析で構成されます。この段階で発生するあらゆるエラーは通常,クオリティスコアに反映されます。
引用されているシーケンスシステムのエラー率は,通常,検出精度に起因するものです。
検出エラーは,十分に確立された塩基当たりのクオリティスコアを用いて追跡することができるため,サンプルエラーほど大きな影響はありません。一方,サンプルエラーは直接追跡することができませんが,全体的なシステム精度が低下することでサンプルエラーが生じていることがわかります。
検出エラーはリシーケンス,シングルリードエラー補正,または符号化スキームにより改善できます。
クオリティスコアに関する詳細はこちらアルゴリズム精度は,ワークフローの二次データ解析フェーズに関連しており,通常,アライメントと変異コールに関与しています。アライメント手法の精度が重要になります。
シーケンス装置から得られるデータのクオリティにかかわらず,アライメントが最適でなければ最終データセットのクオリティが低くなり,不一致が誤って配置されたり,カバレッジが不均一となったり,ギャップ数が多くなったりする可能性があります。
その結果,偽陽性率や偽陰性率が高くなる場合があります。同様の理由から,バリアントコール手法も,それ自体の精度が高くなければなりません。
イルミナは,精確なアライメントとバリアントコールの実施を可能にする使いやすいバイオインフォマティクスツールをご提供します。
バイオインフォマティクスツールはこちら