两个RNA文库准备工具包的故事
はじめに
拉斐尔·卡洛杰罗は、トリノ大学分子生物技术与健康科学部の副教授で、メンバー5.名で構成される研究グループ生物信息学和基因组学股のリーダーです。このグループでは、バイオマーカーを特定し、がんやその他の多因子疾患の分子基盤を調べるために、ゲノムデータおよびトランスクリプトームのデータマイニングに取り組んでいます。このグループは、独自のソフトウェアアプリを設計し五、基地空间™ 序列集线器を使用して、核糖核酸シーケンス(RNA序列)データの解析を行い、シーケンスサービスや専門家によるバイオインフォマティクスサポートサービスを他の研究グループに提供しています。
ゲノムデータやトランスクリプトームデータの解析におけるスペシャリストとして、卡洛杰罗教授は核糖核酸データがどのように生成されるかに関心を持っています。ラボの業務を効率化する新しい方法を求めて、TruSeq RNA访问库准备工具包*とTruSeq RNA文库准备工具包を比べてみました。下一步™ 500システム†でシーケンスを実施し、データはオープンソースソフトウェアで解析するために基空间序列集线器にストリーミングしました。
i社区は、バリアント検出、融合検出、および環状核糖核酸解析の核糖核酸ライブラリー調製のために、この研究結果からどのような情報が得られるのかについて卡洛杰罗教授にお話を伺いました。
拉斐尔·卡洛杰罗は、トリノ大学 分子生物技术与健康科学部の副教授です。
質問:グループの研究フォーカスを教えてください。
拉斐尔·卡洛杰罗教授(以下RC):私たちは、がん研究およびバイオマーカー探索に取り組んでいます。また、薬物応答や患者層別化のための希少疾患関連バイオマーカーの発見に焦点を当てたプロジェクトも複数進めています。例えば、ALK阻害薬クリゾチニブへの耐性に関与する遺伝子を特定するための研究が現在進行中です。また白血病バイオマーカーの特性解析研究で細胞外小胞核糖核酸についても調べています。
これらすべての研究で私たちが主に使用している方法は差次的遺伝子発現解析です。またアイソフォームの差次的発現解析、融合検出、および環状核糖核酸検出も使用しています。
質問:RNA序列研究ではどのようなシーケンスシステムやデータ解析ソフトウェアを使っていますか?
RC:RNA序列研究ではNextSeq 500システムを使っています。NextSeq 500システムは私のチームに最適なサイズです。実験を動的にセットアップできる柔軟性があります。週を通して常に使用されている状態です。
データ解析にはオープンソースソフトウェアを使っており、主に使うのがR1.やpython2.です。データ解析用のスクリプトもデザインしています。私のチームでは主にがん研究を行っているため、脱氧核糖核酸データや核糖核酸データの準備は广泛研究所基因组分析工具包(GATK)3.のベストプラクティスに従って行い、バリアントコールには博德学院の哑巴4.ソフトウェアを使っています。威康中心の鸭嘴兽5.バリアントコーラーを使って哑巴の結果を集約しています。
「RNA存取」により、バリアントコール、融合検出、および環状核糖核酸検出のためのライブラリー調製を単一の手法に集約させることができます。」
質問:なぜ核糖核酸ライブラリー調製プロトコールの比較試験を実施しようと思い立ったのですか?
RC:我々は、単一の手法にライブラリー調製を集約させてラボの効率を改善する方法を探していました。TruSeq RNA访问库准备工具包がコーディング核糖核酸をターゲットとする方法はエクソームシーケンスと似ています。バリアントコールでは、ポリアデニル化された(polyA)RNA種をターゲットとするTruSeq RNA文库准备工具包に対し、RNA访问キットが同等またはそれ以上の性能を発揮するのではないかと思ったのです。この比較試験の範囲を拡大して、通常は波利亚キャプチャーデータで実施される融合検出や、通常は总核糖核酸ライブラリー調製が必要な環状核糖核酸解析に対するRNA访问データの適合性も評価することにしました。
質問:TruSeq-RNA通路とTruSeq RNA文库准备のデータ比較試験はどのように実施したのですか?
RC:イルミナの加里·施罗斯博士のラボから、TruSeq RNA访问库准备工具包、TruSeq RNA库准备工具包、および总核糖核酸調製を用いて得られた乳腺がん(MCF7)細胞株の核糖核酸シーケンスを提供していただきました。すばらしいカバレッジのデータを提供していただいたので、比較試験を効率的に行うことができました。データ解析は、2.段階モードの明星6.マッピングなどのオープンソースソフトウェアを用いて、盖特のベストプラクティスに従って実施しました。他の研究者に私たちの方法を検証してもらえるようにしたかったので、ラボ独自のバイオインフォマティクスツールは使用しませんでした。
質問:比較試験の結果はどうでしたか?
RC:サンプルあたり2000~2500万リードという低いインプットリードレベルでは、波利亚によるTruSeq RNA文库准备のデータを用いるより、RNA访问のデータを用いる方がより多くのバリアントを検出できることを確認しました。リードレベルが高くなるに伴い、各データライブラリーで検出されたバリアント数の差は小さくなり、1.億リード付近ではゼロになりました。
またオフターゲットの量については、波利亚データよりもRNA访问データでかなり少なくなっていることも確認しました。波利亚データでは多数のリードが遺伝子間領域に局在化していましたが、RNA访问データではそのような局在化は確認されませんでした。これはRNA访问法がコーディングエクソンシーケンスを用いてデザインされているからであり、そのためインプットリードが比較的少ない場合にはバリアント検出において波利亚よりも効率的なのです。
「基地空间」アプリにより、バイオインフォマティクス初心者でも複雑な解析を簡単に行うことができ、実行された解析ステップを追跡することが可能になります。」
質問:核糖核酸ライブラリー調製キットを選ぶ際の注意点などはありますか?
RC:RNA访问は、サンプルあたり2000~2500万リードの標準的な遺伝子レベルの解析フォーマットではバリアント検出において波利亚よりも効率的になるでしょう。ただし、コーディングエクソン外にあるバリアントを調べる場合には波利亚の方が適していることが明らかです。コーディングエクソン外の領域は特にRNA访问ではカバーされていませんので。
また、RNA访问法で実現するライブラリー調製の高い柔軟性も考慮すべきでしょう。例えば、私たちが融合データを調べていたとき、インプットレベルが低い場合でもRNA访问データと波利亚データで同じ数の融合転写産物を確認しました。つまり、波利亚キャプチャーでは対応できない分解サンプルにおける融合遺伝子の検索にRNA访问を使用できるということです。
もう一つの有益な知見は、通常总核糖核酸調製が必要になる環状核糖核酸同定もRNA访问で可能であったことでした。つまり、RNA访问により、バリアントコール、融合検出、および環状核糖核酸検出のためのライブラリー調製を単一の手法に集約させることができるのです。RNA访问には波利亚よりも少し高価であるというデメリットはありますが、検出できる核糖核酸の種類に関して高い柔軟性が得られます。波利亚とは異なり、さまざまな品質の核糖核酸サンプルを標準化できる方法でもあるのです。
質問:これらの核糖核酸ライブラリー調製法を使用する前に知っておくべき特別な状況はありますか?
RC:まれな場合ですが、コーディング遺伝子とノンコーディング遺伝子が同じ鎖に局在していることがあります。共通領域の一部を共有しているのですが、エクソンとイントロンは完全には重複していません。このような場合、同じ鎖のコーディング・ノンコーディング領域にある特定のエクソンにリードを割り当てるかもしれません。周辺の配列を見て推測しない限り、コーディング領域にもノンコーディング領域にもリードを正しく割り当てることができないかもしれません。
RNA访问データと波利亚データでは同じ数の融合転写産物を確認しましたが、特定の融合転写因子を検出できるかどうかは核糖核酸ライブラリー調製にかかっていました。MCF7は非常によく調べられているため、発表された検証済み融合イベントをすべて収集しました。RNA访问データと波利亚データにおける検索では雅法7.を使用しました。核糖核酸のテクニカルレプリケートから始めたため、唯一の違いはライブラリー調製でした。両方のデータセットで検出された融合もありました。しかし、その他の融合はどちらか一方のデータセットでしか確認されませんでした。融合転写産物の検出において、ある核糖核酸ライブラリー調製法が別の方法より優れているかどうかを判断するのは困難です。両者は互角だと思います。
質問:研究の次のステップは?
RC:現在、このTruSeq-RNA通路とTruSeq RNAのライブラリー調製比較試験についての論文発表に向けて執筆しています。他の研究者もすぐにこの試験を詳細に検討する機会が得られればと思っています。
クリゾチニブ阻害剤研究については、同じサンプルから得られたRNA序列データ、エクソームデータ、そして微小RNAデータを調べています。リンパ腫細胞がクリゾチニブ感受性からクリゾチニブ耐性へと変化する過程で何が起こっているのかを確認するためにRNA访问を使っています。RNA访问を使うことで、発現したバリアントをエクソームレベルのデータと関連付け、どれが機能性タンパク質に影響を及ぼしているのかを判断することができます。
白血病バイオマーカー特性解析研究では、急性リンパ性白血病(全部)急性骨髄性白血病(反洗钱)慢性リンパ性白血病(CLL)およびその他の白血病の何百ものサンプルに関するデータを持っています。核糖核酸細胞外トランスクリプトームと患者の病歴との間の潜在的な関係を見出そうとしています。
質問:他の研究者たちは教授のチームのバイオインフォマティクスに関する知識とノウハウをどのように利用できるでしょうか?
RC:基空间序列集线器では、私たちのバイオインフォマティクスにおける経験を効果的に共有できます。基空间序列集线器には微RNA解析用基地空间アプリがすでに1.つ入っており、さらに2.つが近々公開されます。現時点で環状核糖核酸検出用のアプリはありません。しかし、西里8.ソフトウェアを組み込んだアプリを1.つ開発しており、公開に向け基空间序列集线器に提出済みです。
これらの基地空间アプリは、バイオインフォマティクスの専門家でなくても私たちがラボで開発した解析を再現できるようにデザインされています。基地空间アプリにより、バイオインフォマティクス初心者でも複雑な解析を簡単に行うことができ、実行された解析ステップを追跡することが可能になります。もう一つの利点としては、基地空间アプリではローカルインフラの構築が不要だということです。ユーザーは、実施している実験に必要なコンピューティングリソースにアクセスできます。
私たちは基空间序列集线器を、イタリアやシンガポールの生物学者向けのゲノムトランスクリプトームデータ解析コースでの教育ツールとして使用しています。また、ドイツでは欧洲分子生物学实验室(EMBL)で使用しています。基空间序列集线器の最も目を引く特長の1.つは直感的なインターフェースです。ウェットラボの科学者に使ってもらうと、解析スクリプトを書かなければならないため作業が脱線するということがありません。その分、解析ステップの理解に集中できるのです。基空间序列集线器を使えば、どのように行うかではなく、何のために行っているのかという生物学的理由にもっと焦点を当てることができるのです。
このインタビューに登場するイルミナの製品やシステムについての詳細は、以下のリンクからご覧いただけます:
基空间序列集线器については、www.169o.com/products/by-type/informatic-products/basespace-sequence-hub.html
NextSeq 550システムについては、www.169o.com/systems/sequencing-platforms/nextseq.html
TruSeq RNA访问库准备工具包(現製品名TruSeq(RNA外显子组)については、www.169o.com/products/by-type/sequencing-kits/library-prep-kits/truseq-rna-access.html
参考文献
统计计算的R项目。www.r-project.org/.查阅日期:2017年11月10日。
pythonwww.python.org/,于2017年11月10日查阅。
博德研究所,基因组分析工具包。software.broadinstitute.org/gatk/.查阅日期:2017年11月10日。
MuTect1.基因组分析工具包。software.broadinstitute.org/gatk/download/mutect.查阅日期:2017年11月10日。
鸭嘴兽:一种基于单倍型的下一代序列数据变异调用者。惠康人类遗传学中心。www.well.ox.ac.uk/platypus.查阅日期:2017年11月10日。
多宾A、戴维斯CA、施莱辛格F等。STAR:超快通用RNA序列比对器。生物信息学.2013;29:15−21
GitHub.Oshlack/JAFFA。github.com/Oshlack/JAFFA/wiki.查阅日期:2017年11月10日。
高Y,王J,赵F。CIRI:一种有效的无偏算法从头环状RNA鉴定.基因组生物学.2015;16:4 doi:10.1186/s13059-014-0571-3。
*現製品名TruSeq RNA外显子组
†NextSeq 500システムは販売が終了いたしました。今後はNextSeq 550システムをご利用ください。