受Google Maps的启发,研究人员可以使用一套工具去绘制染色体的复杂构象。
染色体的功能远不止保持DNA整齐有序。这种基因组DNA和蛋白质组成的复合物有许多不同的结构和构象,这些结构和构象可能会影响包裹在其周围的基因的表达。在某些构象中,线性DNA中相距较远的两个序列可能实际上非常靠近,并影响彼此的活动;而在其它形式中,这两个序列可能相距甚远。
Erez Aiden是剑桥麻省理工学院(Massachusetts Institute of Technology)的研究生,他与其他人共同开发了一种名为Hi-C的技术。该技术首次在基因组水平上揭示了染色体的折叠方式。Hi-C不仅详细描述了影响基因表达的DNA环和结构域,甚至还能将复杂的基因组拼接在一起。虽然以2D矩阵呈现的数据详细记录了染色质的交互信息,但在2009年的当时,Aiden还没能找到一种简单的方法,以探索这些空间构象。所以,他自己开发了一种技术。
据Aiden回忆,当时他只能打印出多个分辨率的Hi-C矩阵,这需要用到上百张纸。他还找来最大的会议桌,把打印的所有矩阵都摆放上去,以查看大规模的空间构象。Aiden认为这是一个很好的界面。不过,他也承认,他需要一种更环保的、可持续和共享的方法来观察染色体构象。
最后他开发了Juicebox,一个基于Java的桌面应用程序。它可以提供Google Maps样式的染色质交互数据探索,允许研究人员从基因组水平放大或缩小来观察结构特征。
Aiden指出,2014年发布的Juicebox大约被下载了14000次,今年推出了一个基于浏览器的版本。Juicebox只是一系列探索2D基因组交互数据的免费程序中的一个:一些程序专注于相对狭窄的染色体位点,而另一些则可以进行基因组探索。其中部分程序重点关注由2D矩阵推断3D结构。这些程序反映了染色质相互作用数据集的日益增长。事实上,4D核组项目(4D Nucleome Project)这样的大项目更是大规模地促进了染色体交互数据集的爆炸式增长。
马萨诸塞州波士顿哈佛医学院(Harvard Medical School)生物信息学家Peter Park指出,因为[数据]变得如此复杂,所以可视化变得尤为重要。
加州大学圣克鲁斯分校(The University of California, Santa Cruz, UCSC)开发的Genome Browsers是最受欢迎的探索基因组数据的门户之一。像大多数基因组浏览器一样,它将序列数据呈现为一维“轨迹”,显示为表观遗传特征(如组蛋白修饰和甲基化位点)的线性字符阵列。
然而,Hi-C生成的是2D矩阵。该技术鉴定了线性DNA序列中相距很远,但在3D空间中邻近的序列。据Aiden解释,如果你关注基因组中的两个位置,矩阵会告诉你这两者之间彼此接触的频率。通常,这些数据被转化为热图,而颜色强度则反映了两点之间的相互作用频率。
Aiden等人,包括加利福尼亚大学圣地亚哥分校(University of California, San Diego, UCSD)的James Robinson从Google地图中获得灵感。Robinson表示,有了Google地图,用户就可以从全球视图无缝切换到街道级视图。这样一来,整个数据集是非常巨大的,但Google并没有一次性提供所有数据。相反,软件“将世界划分成不同分辨率的瓦片”。在任何一个时间内,用户只能查看少量的瓦片。这些瓦片被组织起来,使相邻的瓦片更易被获取。他还指出,只要你能够快速地找到4个人,你就可以得到一个交互式的地图。
类似地,Juicebox的“hic”文件以多种分辨率存储每个可能的染色体对的预先计算的图块集。软件的查询表可以直接检索数据,无需搜索,从而加快访问速度。因此,Juicebox用户可以无缝探索整个基因组的交互作用,然后放大以查看精细的功能。
用户可以访问Aiden实验室公开提供的数百个预先计算的基因组接触地图中的任何一个,或查看自己的数据。他们将自己的数据或公共数据库得到的数据与Aiden实验室提供的标准数据(例如基因位置或组蛋白标记)进行比对。例如,DNA结合蛋白CTCF的结合位点,与染色体环高度相关。用户可以标记和记录感兴趣的特征。
基因组同步
今年3月,哈佛医学院(Harvard Medical School)的生物医学信息学家Nils Gehlenborg开发了基于网络的2D基因组交互可视化工具——HiGlass,它也提供了类似Google地图的体验。 与Juicebox一样,在HiGlass中,研究人员可以导入基因组轨迹来帮助他们了解所看到的内容。此外,HiGlass还允许用户在一个浏览器窗口中打开多个HiGlass视图,并将它们同步起来,以使它们始终显示相同的区域。这样,Gehlenborg指出,研究人员就可以比较不同条件或实验中的染色体构象了。他还表示,他们为研究者和分析师提供了新猜想的灵感。(Aiden提到,基于浏览器的Juicebox版本还允许每个窗口同步多个视图,桌面Juicebox应用程序的用户可以跨不同的窗口同步视图,但不能在单一视图中进行同步)。
Gehlenborg的团队已经建立了一个HiGlass服务器,以挖掘公开的数据。需要分析自定义数据集的研究人员必须在本地安装该软件,Gehlenborg团队为此提供了一个Docker容器。
Juicebox的Web版本和HiGlass都允许用户创建可分享的URL,指向数据的特定视图——Aiden把这个功能称为软件的“杀手级应用”。他认为,如果用户注意到基因组结构与特定的1D轨道完全重叠,那么点击那个URL,复制它,就可以推送它了。所有接收到该分享的人都可以点击它,随后便会得到与分享者软件相同的参数设置(即参数重用——点开的人,可以看到和分享者同样的视图)。
另外两个可视化软件——3D基因组浏览器(3D Genome Browser)和WashU EpiGenome浏览器(WashU EpiGenome Browser)均能提供更多的本地化视图。用户可以选择感兴趣的区域,浏览器会显示该区域的基因组交互信息。
Juicebox和HiGlass将热图映射成矩形的镜像,而这些浏览器则将热图显示为三角形。UCSD基因组生物学家Bing Ren指出,他们去掉了一半的冗余信息。(WashU浏览器还可以将交互数据显示为连接交互区域的弧线。)
这种变化可能听起来不大,但根据宾州宾夕法尼亚州立大学(Pennsylvania State University)的Feng Yue(在博后期间,与Ren合作开发了他的首个3D Genome Browser原型)的研究,这种变化能让研究人员更容易识别功能区域。例如,3D基因组浏览器允许其用户将来自两个物种的热图相叠,以评估折叠体系结构的进化保守。这种“虚拟4C”(virtual-4C)模式允许用户查询与特定基因组位点相互作用的序列的Hi-C数据集,从而方便研究者观察基因调控区域之间的相互作用。
另一个非常好用的基因组交互可视化软件是由UCSD的Sheng Zhong等人开发的GIVE。GIVE允许研究人员使用几行HTML代码,将完整功能的基因组浏览器(包括2D交互数据查看器)纳入其个人或实验室网页。Zhong指出,研究人员可以与同事分享数据,发表文章时也可以附上链接,整个操作时间大约为20分钟。
意大利米兰FIRC分子肿瘤学研究所(FIRC Institute of Molecular Oncology)的计算生物学家Francesco Ferrari使用R编程语言和Bioconductor软件库来显示他的Hi-C数据。这些基于文本的程序缺乏其它软件的交互性,但是由于该团队一直都是使用R和Bioconductor进行数据分析,所以据Ferrari指出,这样更方便。Bioconductor包HiTC以及Python library HiCPlotter均提供了Hi-C可视化工具。
实现3D
最终,2D互动矩阵可以提示3D结构。毕竟,如果两个区域相互作用,它们可能距离非常接近。越来越多的研究人员正在使用他们的2D数据来直接计算和可视化3D结构。
CsillaVárnai是英国剑桥Babraham研究所(Babraham Institute)的博士后,他参与了今年早些时候单细胞Hi-C研究的3D模型构建工作(http://dx.doi.org/10.1038/nature23001)。她使用一个名为Gromacs的通用分子建模包来将染色体模拟成一条串珠——每个珠代表约10万个碱基——然后将串珠进行折叠,而Hi-C的交互数据则是折叠时的“约束条件”。
某些软件则专门被设计用于染色体结构的建模。由奥斯陆大学(University of Oslo)的生物信息学家Jonas Paulsen开发的Chrom3D软件将Hi-C数据与核包膜距离的信息相结合,以模拟染色体在细胞核中的位置。据Paulsen解释,这对基因调控来说非常重要。核外围附近的基因倾向于被抑制,而更位于中心的基因通常是有活性的。MarcMartí-Renom和西班牙巴塞罗那基因组调控中心基因组分析中心(National Center for Genomic Analysis–Center for Genomic Regulation)的Mike Goodstadt开发了另一个3D工具——TADkit。TADkit允许用户在相应的2D热图和1D轨迹旁边查看3D染色体模型。只要选中一个视图中的一个特征,那么软件就会自动高亮其它试图中的同一特征。
由于大多数Hi-C数据集包含数百万个细胞,到底3D视图比2D视图能多提供哪些信息还有待观察。麻省理工学院(Massachusetts Institute of Technology)的生物信息学家Leonid Mirny打了个比方,你拍了一堆人的照片,然后将它们平均化,最后得到的照片会跟谁都不像。3D视图可能也会存在这种问题。Zhong指出,目前还不清楚哪个工具(如果有的话)将成为基因组可视化的金标准,现在这方面的争论已经很激烈了。
Ren正常,对于基因组生物学来说,可视化是关键因素。据他解释,分析工具是在统计数据的基础上设计而成的。有时候它们会错过一些东西,有时它们会推断出一些压根不存在的功能。因此,科学家还是要谨慎,自己检查分析数据非常重要。
(本文转载生物谷)