AI破解生命演化密码:蛋白质高阶特征揭示趋同进化新机制
传统研究方法的局限与突破
趋同演化是自然界中一种引人入胜的现象,表现为不同生物类群在适应相似环境时独立演化出相似功能。中国科学院动物研究所邹征廷研究员团队的最新研究从蛋白质的“高阶特征”层面揭示了这一生命演化奥秘的重要机制,突破了传统研究方法仅关注氨基酸位点趋同的局限。
传统研究方法主要聚焦于蛋白质序列中单个氨基酸位点的趋同变化,但越来越多的证据表明,即使没有明确的位点趋同,同源蛋白仍可能通过高阶结构或理化特征的趋同演化实现功能上的相似性。研究团队成员形象地比喻道:“这就像用不同的砖块砌出结构相似的墙。虽然组成的氨基酸可能不同,但蛋白质整体的物理化学性质和结构却可以趋向一致,从而实现相似功能。”
AI蛋白语言模型的核心创新
面对这一科学难题,邹征廷团队提出了名为“ACEP”的计算分析框架,其核心创新在于利用了预训练蛋白语言模型。这类语言模型在海量蛋白序列数据上进行预训练,能够捕捉序列中复杂的上下文信息和高阶特征,将蛋白序列转化为包含丰富演化信息的高维嵌入向量。
“蛋白语言模型是能‘读懂’蛋白质‘语法’的人工智能,它能理解氨基酸序列背后更深层次的蛋白结构功能特征和规律。”研究人员介绍。ACEP分析流程包括三个关键步骤:首先计算目标类群同源蛋白嵌入向量的真实距离,然后通过模拟中性演化过程构建背景距离分布,最后基于分布对真实距离进行统计检验,判断是否存在显著的高阶特征趋同信号。
方法验证与重要发现
为验证ACEP框架的有效性,研究团队对真实蛋白数据进行了全面的计算分析。在已知的经典案例中,如在回声定位哺乳动物的Prestin蛋白和景天酸代谢植物的PEPC/PPCK蛋白上,ACEP均检测到了显著的高阶特征趋同信号。
全基因组筛选结果显示,ACEP在蝙蝠与齿鲸中识别出数百个具有趋同信号的候选基因。功能富集分析表明,其中部分基因显著关联“感官感知”等与回声定位密切相关的功能条目。这些基因不仅包含已知的回声定位基因,还发现了多个新候选基因,部分候选基因还得到了正选择检验的支持,增强了其发生适应性趋同的可信度。
研究意义与未来展望
该研究首次系统揭示了蛋白高阶特征趋同是适应性演化的重要机制,为理解生物适应性演化的分子基础开辟了新方向。邹征廷研究员表示:“这项工作不仅深化了对生命演化规律的认识,也展示了人工智能技术在解析复杂生物问题方面的强大潜力。”
ACEP框架为在全基因组水平系统挖掘基因的复杂适应性趋同模式提供了新工具,将参与推动演化生物学研究范式的转变。研究成果对生物医学、生态学等领域也具有重要的启示意义,不仅帮助我们理解生命如何适应环境,还可能为未来的药物研发和疾病治疗提供新思路。
目前,ACEP分析框架的代码已在HuggingFace平台开源共享,供全球科研界使用。这种开放共享的做法将加速相关领域的科学发现进程,推动人工智能技术与生命科学的深度融合。