クラウドベースの挥动データの解析,管理および保管
はじめに
今日の次世代シーケンス(上天)システムは膨大な量のデータを生成することから,研究者はすべての情報を効率的に管理し,解析し,保管する方法を追い求めています。この一つのソリューションとして,クラウドがあります。クラウドでは,無制限のデータストレージ,リアルタイムでのシーケンスランモニタリング,および強力なデータ解析ツールの利用が可能です。オックスフォード分子診断学センター(OMDC)の血液学——分子診断学研究所の主任臨床研究者であるHelene Dreau氏(MSc)にとっては,クラウドの利用によりバイオインフォマティクスのサービスを開発するニーズを減らすことができました。
德罗氏が率いる5.人のチームは、オックスフォード大学およびオックスフォード大学病院国民医療サービス(NHS)ファウンデーショントラストの大規模臨床研究グループが行うゲノミクスの取り組みを支援する役割を担っています。イルミナのMiSeq、HiSeq 2500、およびHiSeq 4000システムを使用して、德罗氏は基础空间信息学套件によるデータ解析に着手しました。グループのシーケンスシステムが生成するデータ量が増えたため、德罗氏は、アマゾンウェブサービスクラウド(亚马逊网络服务云)で保管、共同研究、そしてデータ管理を行う基空间序列集线器へと移行しました。
门店データ解析をクラウドに移行する決断と,それによりラボが受けた恩恵について,iCommunityがDreau氏にお聞きしました。
海琳Dreau, MSc,オックスフォード分子診断学センター(OMDC)の血液学——分子診断学研究所の主任臨床研究者。
質問:あなたのラボはオックスフォード大学のどのような臨床研究チームを支援していますか吗?
海琳Dreau氏(HD):私たちはオックスフォード大学病院で血液疾患(異常ヘモグロビン症,血友病、白血病,リンパ腫など)に関連した検査サービスを提供しており,DNA, RNAのシーケンスおよびフローサイトメトリーなどの専門的な検査を行っています。泰晤士河谷がんネットワークの一員でもあり,地域のトレーニング実施病院に移る前に専門分野登録者(医師)への教育を担っています。
オックスフォード大学病院が行う臨床試験の支援も業務の一環です。また,国立衛生研究所(NIHR)のオックスフォード生物医学研究センターと共同研究をしています。同センターは疾患の予防,診断および治療に関するイノベーションを推進し,生物医学研究の進歩を臨床現場に導入することに注力しています。こうした取り組みを支援するため,我々は新しいテクノロジーを開発し検証しています。過去10年間,各機関の資金援助を得て,最先端のツールとテクノロジーを取り揃え,ゲノムセンターにまで成長しました。
質問:ラボがNGSを使用し始めたのはいつですか? また、どんなシーケンスアプリケーションを実施していますか?
高清:2013年にMiSeqシステムを導入し,その後,HiSeq 2500システム,HiSeq 4000システムを追加しました。TruSeqカスタムアンプリコンなどのターゲットシーケンスパネルを使用しました。現在,転座パネルを開発しています。また,RNA-Seqも実施しています。
質問:ラボでのMiSeqシステムおよびHiSeqシステムの評価はいかがですか吗?
“BaseSpace序列中心を使えば,バイオインフォマティクスのスタッフやサーバーを必要とせずにデータの解析,保管,発信が可能です。増大するデータ解析量への対応に役立ちました。」
高清:イルミナの挥动システムの性能は素晴らしく,非常に満足しています。ターゲットパネル設計にイルミナコンシェルジュサービスを利用し始めました。MiSeqシステムでターゲットパネルサービスを使用して,シーケンス効率が向上し,結果の信頼性も高まりました。MiSeqシステムはラボの主力システムなので,効率性はとても重要です。アッセイの設定プロセスは簡単で,装置のクリーニングやメンテナンスも容易に行えます。
質問:ラボのチームにバイオインフォマティクスの専門家を補充しないのはなぜですか?
高清:バイオインフォマティクスのスタッフを採用する予算がないからです。採用したとしても,バイオインフォマティクスの専門家をNHS研究所に引き留めておくのは難しいでしょう。優秀な人であれば,論文を発表できる研究機関やより高い報酬を得られる企業に行きたがります。経験豊富なバイオインフォマティクスの専門家は,定期的なサービスを提供したり,データ解析パイプラインを実施したり,結果を評価し発信したりするようなポジションには就きたがりません。
質問:最初にMiSeqシステムを導入したとき,どのようにデータを解析し管理しましたか吗?
高清:データ解析のため,MiSeqシステム上でBaseSpaceソフトウェア*とMiSeq记者ソフトウェアを使用しました。
質問:2500年HiSeqおよびHiSeq 4000システムを追加してから,データ解析と管理のニーズはどのように変化しましたか吗?
高清:4000年2500年HiSeqおよびHiSeqシステムを追加してから,挥动データ量が飛躍的に増加しました。臨床試験からのターゲットパネルシーケンスの要求は20%増加しており、他のオックスフォード大学のパートナーも遺伝子検査により興味を抱いています。
質問:门店データの解析,管理および保管への要求の高まりに対応するため,どのようなオプションを検討しましたか吗?
高清:サーバーをラボ内に設置する案を検討しましたが,予算を超えることが分かり,サポートするインフラの変更が必要になると考えられました。また,サーバーのメンテナンスにかかる費用は想定以上でした。そこで2015年にBaseSpace序列中心のBaseSpace应用を使用して解析を実施することを決定しました。2016年8月には,拡張可能なストレージ(> 1 TB)および合計24時間のバイオインフォマティクスプロフェッショナルサービスのサポートが利用できる企业ドメインのBaseSpace序列中心に移行しました。BaseSpace序列中心を使えば,バイオインフォマティクスのスタッフやサーバーを必要とせずにデータの解析,保管,発信が可能です。増大するデータ解析量への対応にも役立ちました。
“BaseSpace序列中心では,挥动データへのリモートアクセスが可能です。これにより,週末であっても,オフサイトミーティング時でもプロジェクトを中断することなく迅速に対応できます。」
質問:研究対象の挥动データへのアクセスをどのように管理していますか吗?
高清:BaseSpace序列中心を使用して,データの解析,保管および配布を行う1つのプラットフォームを構築しました。それによりデータの共有が簡単になり,コスト効率が高まりました。さまざまな研究プロジェクトに対して複数のワークグループを立ち上げ,特定のユーザーにアクセスを許可できます。離れた場所からデータを確認できる点は研究者たちに好評です。
基空间序列集线器を使えば、データアクセスをコントロールし、研究プロジェクトのデータを個別に管理できます。研究活動のプライバシーを守ることは重要です。
質問:チームではクラウド上でどのようにデータ解析を行っていますか吗?
高清:パネルを実行し,適切なBaseSpace应用を選択して実行し,生成データのテクニカルレビューを行います。我々は全員分子生物学者で,熟練したバイオインフォマティクスの専門家ではありません。BaseSpace应用の設定とデータ解析はとても簡単に行えるので助かっています。
質問:プロジェクトを基空间序列集线器で管理する恩恵は他にありますか?
高清:はBaseSpace序列中心,挥动データへのリモートアクセスが可能なため,迅速に結果が欲しい場合やラボから離れている場合に役立ちます。土曜日の午後にランが終了した場合,整合基因组学查看器(进口)とVariantStudioソフトウェアを使用して,クラウド上で離れた場所からパイプラインを開始し,データを解析できます。BaseSpace序列中心を使えば,週末であっても,オフサイトミーティング時でもプロジェクトを中断することなく迅速に対応できます。
また、リモートアクセスによってランの傾向を調べるのも簡単です。何かおかしい点に気付いた場合、 序列分析查看器(SAV)ソフトウェアを使用して、クラウド上でイルミナのテクニカルサポートとデータを共有できます。テクニカルサポートチームに問題を迅速に特定してもらい、必要に応じてエンジニアを派遣してもらうこともできます。装置を管理するうえで有益です。
質問:どのようなBaseSpace应用を使用していますか吗?
高清:BaseSpace序列中心では豊富なアプリが提供されているため,我々の業務の多くがカバーされます。TruSeqカスタムアンプリコンパネルには污染アプリを使用しています。開発および検証の作業では,FASTQCを使用して挥动データを確認し,FASTQ工具包でFASTQファイルの処理,アダプタートリミングやクオリティトリミング,リード長のフィルタリング,ダウンサンプリングを実施します。データを迅速に確認するため,パイプラインにプルダウンできるアプリケーションがいくつかあり,思うがままのパイプラインで解析を行えます。全ゲノムシーケンス(WGS)では,イルミナの全ゲノムシーケンスアプリを使用しています。腫瘍/正常の比較で使用するのは肿瘤正常应用です。このアプリでは,Strelka体細胞バリアントコーラーを使用し,体細胞の小バリアント,構造バリアントのほか,腫瘍にマッチするサンプルのコピー数変異(CNA)をコールします。
“BaseSpace序列中心がなければ,この水準のデータ出力と作業効率を得るのにより多くの時間とコストが必要になるでしょう。」
質問:BaseSpace序列中心は国際標準化機構(ISO)認証をサポートしていますか吗?
高清:NHSユーザーとして,私はISOの認可を得なければならず,すべての実施事項は確認および検証の対象となっています。プロセスを検証するには,すべてのパラメーターを検査し,システムが正常に機能しているか確かめる必要があります。BaseSpace序列中心など,製造業者から供給されたシステムを使用する場合は,そのパイプラインを検証する責任は製造業者側に帰属します。我々の義務はシステムが機能するか確認することだけです。
また,英国認定機関(UKAS)は私たちの利用する供給業者がすべての関連基準の認可を受けていることを求めています。BaseSpace序列中心はISO 27001認証を受けているため,我々のワークフローでこのステップに対するQAを実行したか証明する必要がありません。
質問:BaseSpace序列中心を使わなくても,あなたのサービスを提供することはできますか吗?
高清:BaseSpace序列中心がなければ,この水準のデータ出力と作業効率を得るのにより多くの時間とコストが必要になるでしょう。门店データを保管し,管理し,共有するためのプロセスとシステムを構築するバイオインフォマティクスの専門家を採用する必要が生じると思います。BaseSpace序列中心を使えば,研究者や臨床医に安全なデータアクセス方法を提供しつつ,データ解析を効率化し,生産性のコスト効率を向上できます。
質問:门店データをクラウドに移す前にラボマネージャーが考慮すべきことは何ですか吗?
高清:クラウドを使用してNGSデータを解析し、保管し、共有することを考えるのであれば、考慮すべき点が多々あります。どれくらいのデータを生成し、どのような種類の解析を行い、どれほどの期間データを保持する必要があるか決定しなければなりません。クラウド上での作業にかかる費用は単にライセンスコストだけではありません。保管および計算に関わる時間のコストも含まれます。NGSのランでは驚くべき量のデータが生成されます。受け取ったFASTQ、BAMおよびVCFファイルがクラウド上の保管スペースを占有し、コスト増大を招いていることに気付いていない場合もあります。得られる恩恵がバイオインフォマティクスのインフラを自前で構築するコストを上回るかどうか計算する必要があります。私たちの場合は、生成するNGSデータの解析、保管、管理、そして共有を行ううえで基空间序列集线器を使用することがコスト効率の高い方法です。臨床研究のためだけにサーバーを購入し、バイオインフォマティクスの専門家を採用するコストは、私たちの現在の予算状況からして想定を超えるものです。
また,情報ガバナンスも問題になります。ターゲットパネルでは,取得するデータは患者の秘密保持を維持するため匿名化されます。WGSサービスでは,秘密保持の維持に関する懸念が残ります。現在,参加者の同意を得ることでこの問題を克服していますが,今後も課題の1つとなるでしょう。
質問:将来的にご自身のラボはどのように発展するとお考えですか吗?
高清:より多くのターゲットパネルを作成し,WGSを用いたラボ独自の臨床評価を確立したいと考えています。出生前アプリケーションのほか,腫瘍および微小残存病変(MRD)の早期検出を行うため,セルフリーDNA解析を開発しています。WGSデータをRNA-Seqと統合する計画もあります。
質問:これらのアプリケーションのデータ解析を基空间序列集线器で実施できますか?
高清:BaseSpace序列中心で使用する2、3種類の解析パイプラインを開発済みです。企业アカウントで24時間バイオインフォマティクスプロフェッショナルサービスのサポートを受けられるため,イルミナの協力を得て新しいBaseSpace应用を複数開発しています。
このインタビューに登場するイルミナの製品やシステムについての詳細は,以下のリンクからご覧いただけます:
BaseSpace序列中心については,jp.illumina.com/products/by-type/informatics-products/basespace-sequence-hub.html
MiSeqシステムについては,jp.illumina.com/systems/sequencing-platforms/miseq.html
HiSeqシステムについては,jp.illumina.com/systems/sequencing - platforms/hiseq - 2500. - html
* BaseSpaceソフトウェアはBaseSpace套件の前製品です。