128张GPU炼出中国版AlphaFold2:训练代码全开源,打开浏览器就可体验,北大元培系AI公司打造
原标题:128个GPU提炼中文版AlphaFold2:训练代码全部开源,打开浏览器即可体验,由北大元培系AI公司打造。
阳梦辰源于奥菲寺。
量子报道|微信官方账号QbitAI
中文AlphaFold2,来了!
Uni-Fold,官方公告是开源的,也为研究人员提供了测试界面和在线试用。
半年前,AlphaFold2和RoseTTAFold这两个顶级的AI算法,在生物学和AI领域引发了一场大地震。
半年后,这个横版空诞生的Uni-Fold,不仅可以完整重现AlphaFold2。
其预测精度高于RoseTTAFold,等于AlphaFold2,效率比AlphaFold2 高2-3倍。
△单重预测蛋白质结构
更重要的是,背后的团队不是谷歌这样的互联网巨头,也不是深耕数十年的顶尖大学团队。
是一家刚成立三年的AI创业公司-神石科技。
这个Uni-Fold到底有什么值得一看的?让我们看看接下来会发生什么。
28个图形处理器完善中文版AlphaFold2
AlphaFold2开源的消息一度在观众中流行。稍微冷静下来后,大家才意识到真正用起来并不容易。
使用谷歌官方提供的Colab资源?是的,请排队。
您有自己的计算资源要部署吗?是的,但是AlphaFold2只有模型推理的开源代码,没有开源训练代码。
这意味着部署后只能按照AlphaFold2设计的流程使用,对于具体的研究项目很难进行一些迁移调整。
比如预测蛋白质复合物的结构,研究蛋白质与小分子的相互作用,或者结合电子显微镜实验,这些都无能为力。
此外,该代码基于谷歌自研的差异化计算框架JAX和TPU硬件平台开发,高度依赖谷歌生态系统。
最后,虽然AlphaFold2的模型是开源的,但是调整后的参数组合并没有开放商用。
谷歌母公司Alphabet有自己的AlphaFold2商业化计划,11月新成立的子公司同构实验室是其第一步。
鉴于这种局限性,像申视科技这样的创业团队不得不寻找自己的解决方案。
他们的解决方案是按照开源模式,自己复制AlphaFold2的训练部分。
经过几个月的研究,他们终于在128 NVIDIA V100上重现了alpha fold 2的全面训练。
其中最大的困难是GPU资源有限,很难同时进行多次训练来比较效果。所以他们必须在设计上努力工作,尽量减少试错的次数。
没想到,还有一些额外的收获。
经过混合精度、MPI并行、异步数据读取等一系列优化,递归模型的推理效率比相同硬件下的AlphaFold2公版提高了2-3倍。
此外,再现模式不再依赖谷歌的生态,增加了与NVIDIA GPU、国产DPU等硬件系统的适应性。
模型做好了,那么下一个关键问题就是,预测精度如何?
该团队测试了CASP14蛋白预测任务中的大部分序列。
包括基于模板建模的两大难点(TBM-easy/hard)和最具挑战性的无模板建模(FM),Uni-Fold的平均Cα-lDDT达到82.6。目前模型还在不断完善中,精度有望达到更高水平。
这个分数超过了RoseTTAFold,接近开放的AlphaFold2模型。
对于这个精度堪比原版本、推理效率更高的蛋白质结构预测工具,他们决定将其所有推理代码和训练代码开源,并命名为Uni-Fold。
深视科技发布培训代码的举动得到了业界的广泛好评。就连深度学习预测蛋白质结构的先驱、芝加哥丰田计算技术研究所的徐金波教授也评论道:
随着Uni-Fold的出现,每个研究者都可以训练自己的模型。这无疑会进一步推动技术的发展。对于整个蛋白质折叠领域来说,这是一个令人兴奋的消息。
三年前才成立的申视科技,为什么能成为国内首个复刻Alphafold2全面培训的团队?
重现后为什么要率先宣传培训守则?
下面我们来看看。
北大元培是一家创业公司,一年完成三轮融资。
事实上,在Uni-Fold推出之前,创业团队申视科技就已经引起了业界的关注:
【/s2/】一年时间,我们疯狂拿了三轮融资,最近一轮融资达到了几千万美元,高淳创投领投。
从团队背景来看【/s2/】创始人、首席科学家张【/s2/】出生于北京大学元培学院,获得美国普林斯顿大学应用数学博士学位。
另一位创始人兼CEO 孙也是北京大学原培人,之后在北京大学深造,获得管理学硕士学位。
孙在科技领域有丰富的分析和投资经验,张专注于技术。他的研究兴趣包括统计物理、分子模拟、机器学习及其应用。
此外,首席科学顾问为北京大学教授、中国科学院院士埃维昂。
【/s2/】北大元培系AI创业公司的标签【/s2/】是深时科技受到资本青睐的原因之一。
看技术实力。尤因院士带领的几十人科研团队,囊括了物理建模、数值算法、机器学习、高性能计算、药物与材料计算等多个领域的人才。
他们大多来自世界一流的大学、科研机构和企业。
他们中的许多人有交叉背景。深时科技特别介绍了一位高中有生物竞赛,大学主修人工智能,参与超算研究的同学。
这样的人能够理解不同学科的基础知识和术语体系,对团队合作和沟通大有裨益。
深石科技以跨学科为特色,致力于“用新一代分子模拟方法构建微尺度工业设计平台”。
其中,新一代分子模拟方法是指“多尺度建模+机器学习+高性能计算”新的研究范式。
由神时科技首创的新范式,在保证计算效率和精度的基础上具有普适性,可以给医学和材料领域带来新的计算模拟和设计工具。
例如,尤因和张共同研究的一项技术使用机器学习方法,在保持高精度的同时,将分子动力学极限提高到10亿原子尺度。
该成果获得了被誉为2020年“超级诺贝尔奖”的【/s2/】戈登·贝尔奖【/s2/】,并与“量子优越性”和“人造太阳”成果一起入选2020年中国十大科技进步。
基于这样的团队背景和科研实力,不难理解为什么神时科技能够在这么短的时间内重现AlphaFold2的全面训练。
但是作为创业公司,光有以上两个因素是不够的。创造行业价值是当前环境下的重点。
在算法工具突破的基础上,Unif-Fold配套解决方案也整合到了自己的药物设计平台Hermite中,可以通过免费注册的方式进行测试使用。
Hermite基于云计算,所以你不用担心模型部署和环境配置。打开浏览器就可以使用Uni-Fold的各种功能。
此外,Hermite作为一站式药物设计平台,集成了更多功能。
如果对蛋白质的结构进行预测,可以继续进行蛋白质的动态模拟、结构细化和环优化。
在药物优化阶段,它还提供了一个工具来比较不同分子和蛋白质靶标之间结合活性的差异。
这也是深时科技打破蛋白质结构预测工具现状,率先发布训练代码背后的考量——
他们所做的不仅仅是蛋白质结构预测工具,更是一套由模拟-AI-实验驱动的药物设计领域的解决方案和开发平台。
开源和开放吸引更多人来到开源社区,积累的数据、聚集的多学科人才、实现的应用,都是平台生态建设的重要力量。
深实科技的微尺度工业设计平台不仅涉及生物医药领域,在新能源材料研发方面也有布局。
近日,神石科技与当代安普瑞科技有限公司达成战略合作,双方将共同建设联合实验室,计算并带动能源材料的设计与研究。
计算热潮
此时Uni-Fold的推出不是一时兴起,而是天时地利人和的聚会,我们选择了先做决定再搬家。
这不仅是实际需求驱动的,也是行业大趋势驱动的。
对于神石本身来说,过去一直致力于用AI+物理模型驱动为行业创造价值。
简单来说,就是通过第一性原理把实际的问题或场景演化成一个定义明确的物理模型。
药物研发过程中的关键问题可以通过物理和化学模型来定义,如蛋白质的结构和构象变化、配体与蛋白质的相互作用(包括亲和力和动力学参数的评价)、药物分子和剂型的溶解度等。
这些问题对应的是药物设计平台Hermite,即药物优化模块Uni-FEP、蛋白质动力学采样和结构优化模块RiD等功能环节。
在Uni-Fold推出之前,Hermite已经开始了商业化进程,并被许多制药公司的R&D人员使用。
Uni-fold作为药物设计的第一环,直接填补了Hermite的数据驱动引擎。
有助于深入理解生物机制,进而将更多的“黑箱”问题转化为物理问题。
中国科学院院士、北京大学教授、神石科技首席科学顾问尤因评价道:
模型和数据驱动解决方案的结合将为蛋白质结构和药物设计行业提供更好的基础。
其实放眼整个行业,计算生物学正在引领一场科技革命。
其核心代表是以AlphaFold2为代表的新型蛋白质结构预测技术。
利用原有的实验手段(如冷冻电镜、X射线晶体衍射等。)可能需要多年的研究来分析蛋白质结构,而使用计算结构模型最早只需要10分钟。
如果再往前推,在生物医药应用领域,新药研发的效率有望大幅提升。科学家可以利用AI系统设计自然界不存在的蛋白质,为能源、化工、环保等行业催生各种新材料。
因此,选择在此时完全复制AlphaFold2,并向更多R&D人员开放,无疑是物尽其用、创造价值的最快方式之一。
在人们的固有印象中,过去生命科学的研究思路是由表及里,由现象到本质。
也有很多科学家率先从本质上探索微分子世界,但总是受到实验工具、设备等外部条件的限制。
直到人工智能的出现,更多自下而上的问题才逐渐被解决。
计算和算法的发展确实可以缩短理论研究和解决实际问题之间的距离。
魏楠院士曾多次呼吁:“科学是人工智能的下一个主战场。"
人工智能+科学范式的价值已经显现。
而神石科技正是站在这一技术浪潮上的先行者。
- End -
本文为网易新闻网易特别内容激励计划签约账号【qubit】原创内容,未经账号授权,禁止随意转载。
“智能汽车”交流群正在招募!
欢迎关注智能汽车和自动驾驶的朋友加入社区,交流学习行业,不要错过智能汽车行业的发展&技术进步。
赞美诗添加好友时请注意自己的姓名-公司-职位~
注意我这里,记得标记星星~ [/S2/]
一键三连的“分享”、“喜欢”和“观看”
前沿科技进步与日俱增~回到搜狐看看更多。
负责编辑:
本文地址:http://1.55jiaoyu.com/show-254017.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
推荐文档
- 11.赶紧的反义词是什么;赶紧的反义词是什么二年级下册
 - 12.NYFS是什么意思NYFS是什么英文的缩写(nyfs是什么意思nyfs是什么英文的缩写)
 - 13.计算机及应用(计算机及应用和计算机科学与技术)
 - 14.往年武昌职业学院新生缴费指南
 - 15.陂陀是什么意思陂陀的解释是什么(稚子的稚是什么意思)
 - 16.什么拂面成语(什么拂面成语四字词语二年级)
 - 17.孝顺父母的经典句子,感恩父母的一句话简短
 - 18.冯骥才苏七块为什么立这个规矩
 - 19.石家庄28中(石家庄28中2023年5月九年级模拟)
 - 20.深圳大学,分数线预测预测(深圳大学分数线预测预测往年录取分数线预测预测)
 - 21.如何当好班组长;如何当好班组长ppt
 - 22.福建省德化职业技术学校简介
 - 23.99朵玫瑰代表什么意思(9999朵玫瑰代表什么意思)
 - 24.今天,我们比任何时候都更接近梦想
 - 25.佛山科学技术学院是一本还是二本?是几本?在全国排名多少?
 - 26.如厕是什么意思;休闲如厕是什么意思
 - 27.电气自动化就业前景(石家庄铁道大学电气自动化就业前景)
 - 28.咸阳师范学院怎么样 好不好
 - 29.cdr文件用什么打开、cdr文件用什么打开电脑
 - 30.辽宁婚假最新规定,辽宁婚嫁国家规定多少天,,, 
 - 31.中国十大性闻(往年中国性氏排行)
 - 32.2023信阳职业技术学院招生计划-各专业招生人数是多少
 - 33.河北师范大学汇华学院(汇华学院:智慧教育新时代)
 - 34.鲸鱼的寓意,鲸鱼相关介绍
 - 35.女生适合学什么专业,就业好的专业排名榜前十
 - 36.形容描写语言的四字成语(形容语言描写的四字词语有哪些)
 - 37.计算机编程是干什么的
 - 38.公共管理硕士非全日制报考要求(有哪些条件?需要注意什么)
 - 39.荨麻草的花语及象征意义
 - 40.妇幼保健医学(妇幼保健医学专业就业方向与就业前景)
 - 41.科学论文怎么写—四年级科学论文怎么写
 - 42.什么是汇率,什么是汇率风险
 - 43.留言条怎么写_留言条怎么写,小学生二年级上册
 - 44.莘怎么读-莘怎么读莘莘学子是什么意思
 - 45.商鞅的妻子是谁(为什么商鞅遭车裂而秦人不怜)
 - 46.报关与国际货运(报关与国际货运专升本升什么专业)
 - 47.中原工学院在全国的排名,中原工学院在省内排名
 - 48.什么一字值千金上一句(什么一字值千金上一句通知怎么改)
 - 49.国考考什么(国考考什么科目和内容)
 - 50.唐山大地震时间预测发生的时间预测是多少(唐山大地震时间预测发生的时间预测是多少啊)
 - 51.own是什么意思_owe是什么意思
 - 52.往年辽宁统招专升本官网(辽宁专升本院校)
 - 53.长治文化艺术学校(长治文化艺术学校是公办还是民办)
 - 54.吉林市中学排名前十,吉林市最好的中学名单及排名
 - 55.经典的报山名绕口令
 - 56.ae是什么职位;ae是什么职位的缩写
 - 57.2022河北省含专科的公办本科大学-河北本科专科都有的大学排名
 - 58.高锰酸钾制取氧气(高锰酸钾制取氧气试管口略向下倾斜的原因)
 - 59.阳光语录暖人心一句话,成熟励志的经典语录
 - 60.常见的食品干燥剂(常见的食品干燥剂有哪些化学式)
 - 51.四川2023年女生可以读卫校吗
 - 52.2023年读水利水电建筑工程专业选择南充哪所中专学校比较好
 - 53.四川卫校高级护理专业与护理专业有区别吗
 - 54.四川可以读广告设计与室内装饰专业的职校有哪些
 - 55.乐山市医药科技学校医药卫生类中等职业学校
 - 56.南充市建华职业中学地址在哪里
 - 57.四川可以读数控技术运用专业的职校有哪些
 - 58.四川大学附设华西卫生学校2023年地址在哪里
 - 59.2022年泸州市工业技工学校最新学生资助政策
 - 60.四川哪些中专学校有民航运输专业
 - 61.韩语topik考试全面解读什么时候报名
 - 62.雅思为什么有有效期
 - 63.美签行政审查一般多久
 - 64.丹麦禁止携带什么入境
 - 65.ELICOS是什么
 - 66.国外进修需要什么条件
 - 67.留美体检带什么
 - 68.澳洲500签证什么意思
 - 69.建国大学专业介绍都有哪些专业
 - 70.单位内控各岗位职责
 

