突破“亿级”基因组存储瓶颈：新型压缩式泛基因组框架为大规模研究拓展空间

基因测序成本的下降和规模的扩大带来了一个新问题：如何存储、分析和理解海量基因组数据；国际学术期刊《自然·遗传学》近日发表的研究成果为这个难题提供了解决方案。泛基因组学研究同一物种中不同个体的基因组特征。相比传统的单一参考基因组方法，它能更全面地揭示物种内部的自然变异规律，对于追踪病毒进化、理解抗药性机制和探索人类遗传多样性都很重要。但现有的泛基因组数据结构在处理数百万级别基因组时效率不足，难以高效表达不同基因组之间的复杂关系。加州大学圣迭戈分校研究团队开发了"泛基因组突变标注网络"（PanMAN）来解决这个问题。这种数据结构采用树形网络来组织遗传信息。PanMAN由多棵"突变标注树"组成，每棵树以祖先基因组为根节点，在不同分支上记录替换、插入和缺失等突变事件。多棵树通过网络结构相互连接，用于表达重组和水平基因转移等复杂现象。这种设计的优势在于充分利用了基因组之间的共同祖先关系。每次突变只在其实际发生的分支上存储一次，而不是在每个基因组中重复记录，从而实现显著的数据压缩。传统的全基因组比对方法需要在每个基因组中分别记录所有信息，造成大量冗余。研究团队已将该方法应用于微生物基因组分析。他们构建了规模最大的新冠病毒泛基因组数据库，涵盖超过800万个病毒序列。采用PanMAN表示方法后，这些数据仅需366MB的存储空间——相比全基因组比对所需空间——压缩比达到1/3000。研究团队指出，如果将该方法扩展到人类基因组领域，将改变大规模遗传数据的存储、共享和分析方式。这将为研究人类群体的遗传多样性、疾病发生机制和进化历史提供更高分辨率的分析工具，推动精准医学和群体遗传学等领域发展。

PanMAN技术的出现解决了基因组大数据存储的瓶颈，为全局性理解生物进化开辟了新路径。这项突破表明，基础研究的原始创新往往能推动整个学科的发展。随着技术应用范围的扩展，人类解码生命奥秘的进程有望加快。