AI如何快速揭开生命奥秘?Meta的ESMFold预测6亿蛋白质结构

2024-10-20 10:00:03 发布

今年8月,英国“深度思维”公司宣布其AI程序“阿尔法折叠”成功预测了超过2亿种蛋白质结构,覆盖了科学界已知的几乎所有种类。而现在,Meta的研究人员通过人工智能ESMFold,进一步预测了6亿多种来自细菌、病毒以及其他未被表征微生物的蛋白质结构,这项研究已经提交至生物预印本网站biorxiv.org。

Meta AI蛋白质团队运用了“大型语言模型”来预测蛋白质结构。这种模型通常需要大量文本进行训练,而为了将其应用于蛋白质,研究团队用已知的蛋白质序列来训练模型。这些蛋白质由20种不同的氨基酸组成,每个氨基酸由一个字母表示。ESMFold学会了根据模糊的氨基酸比例来“自动完成”蛋白质结构。

团队负责人亚历山大·里维斯指出,ESMFold通过训练,能够直观地理解蛋白质序列中包含的形状信息,并且能够将这些信息与已知的蛋白质结构和序列之间的关系结合起来,生成预测结构。

他们利用这一模型在一个包含土壤、海水、人类肠道、皮肤等微生物栖息地的“宏基因组”DNA数据库上进行应用。这个数据库中的绝大多数DNA条目编码了潜在的蛋白质,这些蛋白质来自从未被培养过且不为人知的生物体。ESMFold在短短两周内预测了超过6.17亿种蛋白质的结构,速度是“阿尔法折叠”的60倍。

尽管ESMFold的准确性可能不及“阿尔法折叠”,但其在结构预测的速度上具有显著优势,这使得研究者能够将预测扩展到更大的数据库。里维斯强调,这些微生物分子是我们了解最少的结构,最新研究有助于我们更深入地洞悉生物学。

蛋白质作为生命的基石,其结构的深入了解对于明确其工作原理至关重要,这将加速生物学领域的研究,例如设计新的疾病疗法或疫苗。目前,多家团队致力于预测蛋白质结构,这一预测已经覆盖了整个蛋白质世界,包括动物、植物、细菌、真菌等生物体的预测结构。这些成果不仅有助于解决生命科学的瓶颈问题,也将在可持续性、粮食安全等重要领域开辟新的可能性。