当前位置: 首页>>www.99bbXX.com >>更快地搜索大数据

更快地搜索大数据

添加时间:    


十多年来,基因测序仪的改进速度超过了计算机所需的输出量。在现有的基因组数据库中搜索DNA序列已经可能需要几个小时,问题可能会变得更糟。最近,麻省理工学院计算机科学和人工智能实验室(CSAIL)的Bonnie Berger小组一直在研究使生物和化学数据更易于分析的技术,从某种意义上说,它可以压缩它。

Berger及其同事在最新一期的“细胞系统杂志”(Cell Systems)杂志上发表了一篇理论分析,说明为什么他们以前的压缩方案如此成功。他们识别使数据集适合于压缩的数据集的属性,并提供用于确定给定数据集是否具有这些属性的算法。他们还表明,几个现有的化合物和生物分子数据库确实展示了它们。

鉴于这些性质的测量结果,研究人员还可以计算其压缩技术所提供的搜索效率的提高。对于他们分析的数据集,这些效率是次线性的,这意味着数据集越大,搜索的效率就越高。

麻省理工学院应用数学教授伯杰(Berger)说:“本文为如何将压缩算法应用于大规模生物数据提供了一个框架。 “我们也可以证明我们可以获得多少效率。”

研究人员的压缩方案的关键是进化是一个很好的设计吝啬。在密切相关的甚至相关的生物体的基因组中存在大量冗余。

这意味着四个DNA字母(A,T,C和G)的所有可能的序列,只有一个非常小的子集由真实生物体的基因组表示。而且,在可能的基因组空间内,真正的生物体不是随机分布的。相反,他们追踪连续的模式,这代表了物种分歧的相对缓慢的速度。

羽毛鸟

为了使搜索效率更高,Berger小组的压缩算法将类似的基因组序列聚集在一起 - 那些仅由几个DNA字母分开的序列 - 然后选择一个序列作为聚类的代表。搜索只能集中在最可能的集群上;大部分数据从来都不需要检查。

如果将基因组数据设想为通过更大的可能性空间追踪连续路径,则可以将这些簇设想为叠加在数据上的球体。属于单一领域的数据点密切相关。

Berger和她的同事 - 第一作者,她的研究组的博士后Noah Daniels,应用数学研究生William Yu和计算生物学本科专业David Danko表明,数据集适合于他们的压缩搜索技术如果他们符合两个标准。第一个它们被称为度量熵。这意味着这些数据仅占可能性较大空间的一小部分。

其次是低分形维数。这意味着数据点的密度在移动数据时不会有很大的变化。如果你的搜索要求你探索三个领域而不是一个领域,那么只需要三倍,而不是10倍或者100倍。

麻省理工学院的研究人员在他们的论文中分析了三个数据集。两个描述蛋白质 - 一个根据它们的氨基酸序列,另一个根据它们的形状 - 第三个描述有机分子。在另外一份报告中,研究人员将同样类型的分析应用于长度为32到63个字母的DNA片段。

时间箭头

他们的搜索算法的效率是以次线性的方式进行缩放,而不是用数据点的数量,而是用数据集的度量熵(这是数据连续性和它们的稀疏性的形式化度量)相对于可能性的空间。由于进化是保守的,基因组数据的度量熵应该随着新的基因组测序而增加。也就是说,新基因组的加入不会, 所有可能性,在可能性空间中追溯到的模式中增加新的分支;而是填补现有模式的空白,增加度量熵。

然而,许多其他的大数据集可能以相同的方式被证明是保守的。例如,网络用户展示的行为范围可能相对于整个可能的空间受到生物学,文化史或两者的限制。麻省理工学院的研究人员的压缩技术可以适用于生物学以外的各种数据。加州大学伯克利分校教授Lior Pachter说:“作者证明,通过采用一个概念上简单的策略,可以利用基因组数据的局部结构来加速匹配。”加州大学伯克利分校的教授Lior Pachter说,他的任命涉及数学系,分子与细胞生物学,电子工程与计算机科学。 “在实证研究中,他们通过一些例子表明他们的策略是有效的。此外,他们还表明,即使是对这个方法中最难的问题 - 寻找群集,也是一种天真而简单的方法 - 运作良好。“

”我认为,在未来的论文中可以探索的一个有趣的意义是使用他们生产的覆盖物更仔细地研究“组学”数据的固有结构,“Pachter补充道。 “这可能不仅适用于搜索,也适用于探索性数据分析和统计推断。”



随机推荐

网站导航 福利地图