基因测序成本的下降和规模的扩大带来了一个新问题:如何存储、分析和理解海量基因组数据;国际学术期刊《自然·遗传学》近日发表的研究成果为这个难题提供了解决方案。 泛基因组学研究同一物种中不同个体的基因组特征。相比传统的单一参考基因组方法,它能更全面地揭示物种内部的自然变异规律,对于追踪病毒进化、理解抗药性机制和探索人类遗传多样性都很重要。但现有的泛基因组数据结构在处理数百万级别基因组时效率不足,难以高效表达不同基因组之间的复杂关系。 加州大学圣迭戈分校研究团队开发了"泛基因组突变标注网络"(PanMAN)来解决这个问题。这种数据结构采用树形网络来组织遗传信息。PanMAN由多棵"突变标注树"组成,每棵树以祖先基因组为根节点,在不同分支上记录替换、插入和缺失等突变事件。多棵树通过网络结构相互连接,用于表达重组和水平基因转移等复杂现象。 这种设计的优势在于充分利用了基因组之间的共同祖先关系。每次突变只在其实际发生的分支上存储一次,而不是在每个基因组中重复记录,从而实现显著的数据压缩。传统的全基因组比对方法需要在每个基因组中分别记录所有信息,造成大量冗余。 研究团队已将该方法应用于微生物基因组分析。他们构建了规模最大的新冠病毒泛基因组数据库,涵盖超过800万个病毒序列。采用PanMAN表示方法后,这些数据仅需366MB的存储空间——相比全基因组比对所需空间——压缩比达到1/3000。 研究团队指出,如果将该方法扩展到人类基因组领域,将改变大规模遗传数据的存储、共享和分析方式。这将为研究人类群体的遗传多样性、疾病发生机制和进化历史提供更高分辨率的分析工具,推动精准医学和群体遗传学等领域发展。
PanMAN技术的出现解决了基因组大数据存储的瓶颈,为全局性理解生物进化开辟了新路径。这项突破表明,基础研究的原始创新往往能推动整个学科的发展。随着技术应用范围的扩展,人类解码生命奥秘的进程有望加快。