Google的DeepMind预测了几乎所有已知蛋白质的形状 - 超过2亿

广告

从现在开始,鉴定科学已知的几乎所有蛋白质的3D形状都将变得简单明了。

研究人员使用Alphafold是一种革命性的人工智能(AI)网络,以预测来自100万种物种的2亿蛋白质的结构,几乎遍及全球所有已知的蛋白质。

该数据发布将在由Google的总部位于伦敦的AI部门DeepMind创建的数据库中公开可用,该部门建立了Alphafold,以及英国剑桥市附近的政府间实体,欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)。

“本质上,您可以想到它涵盖了整个蛋白质宇宙,” DeepMind首席执行官Demis Hassabis在新闻发布会上说。“我们正处于数字生物学的新时代的开始。”

蛋白质的3D结构决定了其在细胞中的功能。因此,精确的地图通常是了解蛋白质功能和大多数药物如何使用结构数据开发的第一步。

Alphafold网络是通过DeepMind使用深度学习AI技术开发的,并且Alphafold数据库具有350,000个结构预测,几乎涵盖了人类,小鼠和其他19种广泛研究的动物所产生的每种蛋白质,并于一年前公开。从那时起,该目录已添加了超过一百万个条目。

使用Alphafold数据库的伦敦大学学院的计算生物学家Christine Orengo说:“我们正在为释放这个巨大的Trove的释放做好准备。”

“为我们预测的所有数据真是太棒了。”

Alphafold以高​​精度预测蛋白质的3D形状或结构。它还提供有关其预测准确性的数据。传统上,科学家使用了耗时和昂贵的实验方法,例如X射线晶体学和冷冻电子显微镜来求解蛋白质结构。

最近做出的2亿个预测基于另一个名为Uniprot的数据库的序列。根据巴塞罗那Josep Carreras白血病研究所(IJC)的计算生物学家Eduard Porta Pardo的说法,科学家可能对这些蛋白质中的某些蛋白质的形状有所了解,因为它们被覆盖在实验结构的数据库中或类似于其他蛋白质的数据库在这样的存储库中。

但是,这种条目偏向于人类,小鼠和其他哺乳动物蛋白。根据Porta;因此,Alphafold垃圾场可能会提供必要的知识,因为它从更广泛的动物中吸取了。

“这将是一个很棒的资源。“但是,我可能会在可用后立即下载它,” Porta承认。

由于Alphafold软件已经使用了一年,因此研究人员现在可以预测任何蛋白质的结构。但是,有人说在一个数据库中进行预测会节省研究人员的时间和金钱。

德国Embl Hamburg的结构建模者Jan Kosinski对数据库扩展感到兴奋。他的团队花了三个星期的时间估计病原体的蛋白质组(所有有机体的蛋白质)。

他说:“现在我们只需要下载所有模型。”

在数据库中获取几乎所有已知的蛋白质也将允许进行新的研究类型。例如,Orengo的团队使用Alphafold数据库来发现新的蛋白质家族,现在将以更大的规模进行。

此外,她的实验室还将使用增加的数据库来更好地了解具有有益特征的蛋白质的发展,例如消耗塑料的能力,以及具有有关特性的蛋白质,例如可能导致癌症的蛋白质。在数据库中找到这些蛋白质的遥远表亲可以帮助定位其功能的来源。

首尔国立大学的计算生物学家马丁·斯坦尼格(Martin Steinegger)合作开发了基于云的Alphafold版本,很高兴看到数据库的增长。但是,他认为研究人员仍然需要运行网络。

人们越来越多地使用alphafold来预测蛋白质的相互作用,并且此类预测不在数据库中。微生物蛋白也未通过对土壤,海水或其他元基因组源的遗传物质进行测序来鉴定。

Steinegger认为,许多人下载新的Alphafold数据库的整个23个Terabyte内容以使用一些高级应用程序是昂贵的。此外,云存储可能很昂贵。

尽管有每种已知蛋白质,但仍需要更新Alphafold数据库。当新的结构数据可用时,Alphafold的预测可能会更准确。

据内部人士称,DeepMind已承诺将永远支持数据库,并将有年度更新。专家还预测,AlphaFold数据库的可用性将对生物科学产生长期影响。

广告

发表评论

您的电子邮件地址不会被公开。