客户采访

单细胞分析促进了发育生物学的发展

计算机科学家通过向所有人提供生物信息学工具来改变生物世界。

单细胞分析促进了发育生物学的发展

单细胞分析促进了发育生物学的发展

介绍

Cole Trapnell博士是TopHat的主要开发者1.,袖扣2.,单片眼镜3.,以及其他在计算生物学家中普遍使用的生物信息学工具。他在马里兰大学(University of Maryland)攻读生物信息学研究生,并获得计算机科学博士学位。他最初并没有打算从事生物学方面的工作,但他的兴趣被使用Solexa测序仪的同事激发了,他们刚刚开始看到下一代测序(NGS)数据。他意识到,将短读序列映射回基因组的问题是一个高通量的计算问题。作为哈佛大学干细胞和再生生物学系约翰·里恩实验室的博士后,他首创了利用单细胞转录组测序分析细胞分化的方法。

现在在华盛顿大学基因组科学系,特拉普内尔博士使用Illumina的NGS数据专门研究单细胞实验的转录组分析和软件。他的实验室专注于单细胞基因组学技术。他的目标是通过识别将细胞从一种类型转化为另一种类型的遗传电路,来确定发育程序是如何在基因组中编码的。识别这些回路对了解人类健康和疾病至关重要。

为此,Trapnell博士依赖于NextSeq 550,Novaseq 6000,以及科学家的跨学科团队。“实验室中的大多数人都是跨学科,”他说,“有任何一种计算机科学家都进入了正在学习计算技术的血液学家和肿瘤学家。”yobet亚洲

最近,特拉普内尔博士与我们分享了他对了解细胞谱系的重要性的看法,他的实验室在单细胞RNA测序(scRNA-Seq)方面的经验,以及他对组合索引(一种不分离单个细胞的基因组分析方法)的应用。他还谈到了他对合作力量的信念,以及这是如何指导他的调查哲学的。

COLE TRAPNELL,PHD是华盛顿大学基因组科学系的助理教授。

问:你如何看待发展的研究?

科尔杰尔(CT):我们希望了解遗传电路电池的架构用于从一种类型转换成另一个类型。最突出地发生在发展中,但它也发生在疾病中。我们对开发计划以及它在基因组中的编码方式感兴趣。这是一个非常大的问题,而不是所有的混凝土。对于一堆实验室共同努力回答,这太大了。

我的实验室在回答这个问题,了解发展程序是如何在DNA中编码的过程中取得进展的策略是,开发技术和软件,并将它们交给世界各地的许多其他科学家。yobet亚洲

我们开发了单细胞基因组学周围的先进技术。它可能是实验性的,如新的测定或新的协议,或者它可以是计算的,例如一种从我们已经在做的实验中提取新的洞察力的算法。然后我们写了一篇论文,我们展示了技术,并将其与难以做的应用程序搭配,而没有技术进步。我们致力于与有关有关开发或疾病有关的人合作并与他们合作以将技术应用于生物学问题的人员合作。

问:你开发的所有软件都是开源的。为什么?

CT:人们会愉快地在一块软件上工作,以解决科学问题,因为它很有趣。如果您试图为符合科学家的软件工具给钱,那么别人将免费这样做。我想帮助人们。即使为标称费收费也会显着降低用户群的大小。TOPHAT被广泛使用的原因是因为它是第一件事解决了映射霰弹枪cDNA序列读取到基因组的问题。更好的事情需要很长时间了。

问:了解细胞谱系的重要性是什么?

CT:理解发展是生物学的一个基本目标,其部分价值在于满足我们对发展的巨大好奇心。我觉得很吸引人的一个例子是秀丽隐杆线虫.每个成年蠕虫都具有相同的相同细胞类型的细胞。这是一个像发条一样运行的程序。你得到的每只动物都是一样的。我们不那样工作。我在我的身体中有不同数量的细胞,而不是你,他们是不同的类型,但你和我可能看起来也是如此。了解发展方案是如何可重复的,即使在产生的细胞数量的哺乳动物变异方面是根本上有趣的。

就实际应用而言,例如,许多儿科疾病都有发展成分。特别是对于罕见的遗传病,我们无能为力。然而,我们开始看到在基因成分或驱动基因突变导致疾病的领域取得了成功。如果你确切地知道控制健康人组织发育的基因回路是如何工作的,你就可以预测疾病患者的基因回路是如何断裂的,并进行干预。

另一个应用程序是器官移植。有很多疾病我们可以用无限的可移植器官治愈。如果我们想制作器官,我们需要了解他们如何在发展中取得的发展,因为我们希望始终如一地,可重复和强大地制作它们。

“单细胞RNA测序允许您使用DNA测序仪作为显微镜以确定哪些基因在单个细胞中转录。”

问:Scrna-SEQ的独特价值是什么?

CT:单细胞RNA测序允许您使用DNA测序仪作为显微镜,以确定哪些基因是活跃的转录在单个细胞。这是一种描绘单个细胞分子内容的方法,在实践中,人们感兴趣的是在一个实验中对多个细胞进行分析。

scRNA-Seq最基本的用途是找出你所观察的是什么类型的细胞以及你有多少细胞。如果有一些单元格类型不符合预期的分类,您还可以发现新的单元格类型。另一个应用是观察细胞对干扰(如药物暴露、环境刺激、疾病引入或基因编辑)的反应。通常情况下,一些基因会随之改变。测量哪些基因发生了变化可以帮助你弄清楚这些扰动是如何在机械上工作的,这样你就可以对细胞中的分子机制做出一些猜测。例如,如果你试图了解一种化合物是如何杀死癌细胞的,观察基因表达就会非常有帮助。

问:Scrna-SEQ在发展研究中的作用是什么?

CT:基因组需要解决的问题是,它得到一个细胞,它需要对细胞分裂的时间进行编程,以制造出一个完整的动物。细胞必须在适当的时间和地点增殖,才能发育成四肢、大脑、心脏、肝脏等。它们都使用不同的基因。它们都产生不同的蛋白质。它们都执行不同的任务。它们在生活中共同发挥作用。当一个细胞分裂成两个细胞时,其中一个或两个细胞都会改变自己的行为,变成一种新的细胞。这些命运决定的时间编码在基因组中。如果你在发育中的动物身上做一个scRNA-Seq实验,你会捕捉到在决定命运过程中处于不同位置的单个细胞。

“伪时间”是我们用来将数据组织成一幅图的概念,这幅图代表了在整个开发过程中所做出的命运决定的顺序。有了足够的时间点,你就可以对发育过程从一个细胞一直到成年的过程进行全面的描述。通过scRNA-Seq,你可以测量每个基因的转录。你可以推断哪些基因在发育的哪个阶段活跃,哪些类型的细胞活跃,并猜测哪些基因参与了不同阶段的决策过程。你可以确定哪些基因能使胰腺细胞发育成胰岛素分泌细胞,而不是胰高血糖素分泌细胞。这是一个需要理解的至关重要的命运决定。

问:Scrna-SEQ有哪些挑战?

CT:单细胞数据集非常庞大。你有成千上万的细胞。我的实验室刚刚发表了一篇论文,我们研究了50多万个细胞进行化学生物学微扰实验。您可能会耗尽RAM来进行分析。其中一些问题可以通过软件解决,但这意味着生物信息学人员必须重写所有代码来处理庞大的数据集。

另一个挑战是我们称之为稀疏性的挑战。在这种情况下,它意味着您有一个表达五个单个基因副本的细胞,并且想要检测到这一点。您想知道有五个副本,但ScrNA-SEQ协议不会在单元格中捕获每个mRNA。他们捕获一小部分,你希望你能捕捉到足够大的部分,你可以告诉你的基因如何与其他基因表达。如果您不捕捉到足够大的分数,并且只有五份副本,可能会暂时不捕获该细胞中基因的副本。这意味着你认为基因在它没有真正脱离时被关闭。这只是你没有发现它。没有证据不是缺席的证据。有很多讨论和大量的工作是如何处理稀疏性的最佳策略。

第三个挑战是分类。它有生物成分和生物信息学成分。通常,你要做的第一件事就是弄清楚你的数据集中有哪些类型的单元格以及每种单元格有多少。你可以通过这个来判断你的实验是否成功。生物成分发生在你准备组织的时候。你必须制造细胞悬浮液。有很多不同的方法。它们中的一些可能会吞噬某些类型的细胞,保留其他类型的完整细胞,而保留其他类型的未完全分离的细胞。然后你做测序实验,你发现你失去了你最喜欢的神经元或者你失去了成纤维细胞。如果你在研究纤维化,这很糟糕。

我们与加内特讨论了生物信息学部分4.软件在成纤维细胞的例子中,没有一个完美的基因能在所有类型的成纤维细胞中表达。这是一个灰色地带。你会发现在成纤维细胞中有五分之四的基因在表达,所以它们可能是成纤维细胞,但也可能是其他的东西。人们会在细胞聚集的地方画图表,每个细胞聚集的地方都是一种细胞类型。这有三个问题。第一,它非常缓慢和费力。第二,因为它不是系统性的,如果更改了集群标准,就必须返回并重新执行。第三,如果你对一个数据集进行聚类,然后对其中一个聚类应用聚类算法,这个聚类就会分裂成三个或四个或五个聚类。你有一种细胞还是五种细胞? The assumption you’re making about how cell type is defined by the transcriptome and clustering is not really correct.

我们希望允许细胞生物学家对系统的深刻了解,以提前地编写他们期望在每个细胞类型中表达的基因,并系统地将其应用于数据集,然后根据这些期望进行系统地应用。还有很多额外的机器学习,进入它的运作良好,但结果是加内特。yobet亚洲Garnett是我们希望根据类型自动化计数单元的分类器。

“我们希望让对该系统有深入了解的细胞生物学家提前写下他们希望在每种细胞类型中表达的基因,并将其系统地应用于数据集……结果就是加内特。”

问:什么是轨迹分析?

CT:当细胞从一种类型转变为另一个类型时,就表达了哪些基因而言,存在连续体。细胞不会分成两个离散组。有些基因在其他基因接通或关闭。轨迹分析试图按照转换过程的途径组织细胞。重要的是要知道,因为在开始时开启的基因在决策过程中很重要,并且在后来的基因可能并不是作出决定。在心肌细胞的情况下,这可能是做事重要的是心肌细胞做,像跳动,但也许他们不是作出决定成为一个重要的心肌。

问:什么是单片眼镜?

CT:单片眼镜是一个软件工具,也是一个活跃的研究项目。介绍了利用scRNA-Seq进行弹道分析的概念。Monocle有三个主要版本。早期的版本可以用几百个细胞进行简单的实验。在过去的五年里,我的实验室发布了更好的Monocle版本,它带有机器学习功能,可以根据基因组织细胞。yobet亚洲这是一个用R语言编写的开源程序,任何人都可以免费下载。

第二个版本专注于更大的数据集,并试图识别轨迹上的命运决定点,即一些细胞走一条路,一些细胞走另一条路。第三个版本做了同样的事情,但在规模和复杂性上,我们需要做小鼠胚胎实验。在这项研究中,有数百种细胞类型同时分化,有一些特殊的问题需要解决。

问:为什么SCI-SEQ被认为是突破?

CT:单细胞组合索引和测序5.或SCI-SEQ是一种用于进行单细胞基因组学的方案。您可以测量RNA-SEQ,ATAC-SEQ4.,这是一种表观遗传分析,测量染色体DNA的DNA结合能力,以及与之相关的其他东西。达伦·库萨诺维奇(Darren Cusanovich)和里萨·达萨(Risa Daza)分别是第一个设计基于组合索引的单细胞方案的人。他们发现可以在不分离单个细胞的情况下进行单细胞基因组学研究。

传统上,人们一直在做什么,将一个电池从悬浮液中放入一个96孔板的一个孔中,将另一个细胞放在下一个孔,等等,然后在每个孔中制作一个文库。那很好,但它真的很费力,它不会很好地缩放。

组合索引是非常不同的。在每个孔中填充许多单元格,在其中穿孔,并在单元格内执行库构建的第一步。在RNA序列中,第一步是反转录。然后用一个序列标记产品,该序列对应于进行反应的井。这些细胞仍然完好无损,你将它们聚集在一起,并将它们添加到一个新的96孔板中。对于SCI-Seq,您需要在PCR阶段再次标记它们。这意味着你放在测序器上的每个RNA序列片段现在都被标记了两次,一次来自第一个孔,一次来自第二个孔,所以你有96对96对可能的配对。如果在工作流中只推送1000个单元格,当您看到两次读取具有相同的识别条形码对时,您可以推断它们来自同一单元格。您可以进行额外的索引循环。你不用做两个标记板,而是做三个,然后用数十万个细胞进行实验。

有许多不同的方法可以部署这个概念并度量不同的东西。你可以在同一个单元中测量多个东西。Jay Shendure和我有一篇论文我们在同一个细胞中做ATAC-Seq和RNA-Seq。所有这些SCI-Seq的工作都是和Illumina合作的。

问:对于第一次接触单细胞基因组学的人,你有什么建议?

CT:当我去参观时,对新技术掌握的速度印象深刻,尤其是研究生和博士后。有一个真正的雄心壮志去采纳它。对于那些正在考虑做第一个实验的实验室来说,我想说的是为这样一个现实做准备:生成数据需要几周的时间,分析数据需要几个月的时间。数据集非常复杂。生物学总是很复杂的。特别是对于RNA-Seq,基于转录对某些信号通路的动力学进行推断是非常具有挑战性的。

材料很贵。很有可能,如果你没有以正确的方式进行实验,那么你可能无法得出结论,而且你已经花了很多钱。你可能想先做一个小实验,但你可能想考虑一个更大的实验,有更多的控制和更好的设计。从长远来看,这可能更便宜。

关于生物信息学,我肯定会在非常清楚地了解您希望在每种细胞类型上专门表达的基因。您将需要在此基础上对细胞进行分类,并成为您系统的专家。更广泛的细胞生物社区的知识尚未以方案可以从转录数据标记细胞类型的方式捕获。

准备好进行一些编程。对R或Python感到舒适,至少在基本级别。你要写一点代码。使用论坛。每个主要工具和软件开发人员都有论坛无法跟上所有电子邮件。

“我希望看到所有我们能想象到的在单细胞中测量的东西都能大众化,并在生物和医学领域得到应用。我认为你可以获得其他技术难以获得的见解。"

问:单细胞基因组学的接下来是什么?

CT:一篇论文刚刚出现在SCI-SEQ称为SCI-PLEX的延伸。这是一种从许多不同条件查看数百万个细胞的方式,它允许我们进行药物屏幕。我们正在尝试做大型扰动实验,而不是构建所有细胞类型的地图集,而是建立基因调节的定量模型,这些模型揭示了机械方式的扰动工作。您可以想象使用它来了解您知道的化合物的动作机制,但您不知道它是如何工作的。

问:你对单细胞基因组学的长期愿景是什么?

CT:我想看到所有我们能想象到的在单个细胞中测量的东西,在生物和医学的世界中普及和部署。我认为你可以获得其他技术难以获得的见解。我很困惑,我们的DNA编码基本上是最复杂和美丽的程序,我们曾经遇到作为一个物种,我想知道它如何产生很多不同的细胞类型,做很多不同的事情从一个单一的、静态的程序。即使我们能理解其中的一小部分,比如基因组是如何编码器官细胞空间组织的精确模式的,这也是一种胜利。

yobet亚洲亚博官网人口了解关于本文中提到的产品和系统的更多信息:

NovaSeq 6000系统,www.169o.com/systems/sequencing-platforms/novaseq.html

nextseq 500系统,www.169o.com/systems/sequencing-platforms/nextseq.html.

参考文献

  1. Trapnell C, Pachter L, Salzberg S。TopHat:利用RNA序列发现剪接连接.生物信息学.2009; 25(9):1105-1111。
  2. Trapnell C,Roberts A,Goff L等人。TopHat和Cufflinks的RNA-seq实验差异基因和转录本表达分析.Nat Protoc. 2012;7(3):562-578.
  3. 引用本文:王志强,王志强,王志强等。单个细胞的伪时间排序揭示了细胞命运决定的动力学和调节机制.生物科技Nat》.2014; 32(4):381-386。
  4. Liner H,Shendure J,Trapnell C.监督分类可以快速地注释小区atlase.Nat方法.2019; 16(10):983-986。
  5. 曹建军,王志强,王志强,等。综合单细胞转录剖面的多细胞生物.科学.2017年;357(6352):661-667