阿里云AI科技抗疫:生命科学、云盘算和科技时间窗口

2020-11-22 网络
浏览
[科技新闻]阿里云AI科技抗疫:生命科学、云盘算和科技时间窗口

原题目:阿里云AI科技抗疫:生命科学、云盘算和科技时间窗口

这篇公号,是EmTech 麻省理工科技谈论提供的我的讲话文字纪录,阿里云在这次峰会上获得TR50伶俐公司奖。

11 月 20 日,由苏州市相城区人民政府与《麻省理工科技谈论》团结主理的 EmTech China 2020 全球新兴科技峰进入第二天议程。今年,EmTech China 约请到了数十位顶级科学家、海内外院士、商业首脑、科创精英莅临现场,探讨新兴科技生长现状及其为人类社会带来的伟大影响。

会上, 阿里云高性能盘算总监何万青分享了阿里云在新冠抗疫、药物疫苗研发以及跨界协作中所提供的关键手艺支持,以下为整理后的演讲实录:

人人好,今天早上我起的对照早,获得一个新闻,今天我其中的一页异常主要的更新。

今天我提到的一个用户和医药科学方面的互助伙伴,获得了高性能盘算行业的诺贝尔奖 – Gordon Bell 奖,两天前我准备这个质料的时刻,它是中国唯一入围决赛的,六家入围的其中一家,戈登贝尔奖有什么样的靠山呢?在 2012 年的时刻,我们天河二号第一次登顶我们延续四届天下最强盘算机的时刻,那时刻中国拿不出一个应用可以申请戈登贝尔奖,那时全天下去找科学家用户来使用它,直接到 2016 年北大、清华团结团队,我们拿到了一个戈登贝尔奖。

今天深势科技是我今天要讲的内容之一。我今天来给人人讲故事,为什么派我来,异常有幸我在新冠时代,阿里云向全社会,全球开放AI免费算力,我们推动 AI 辅助药物筛选手艺在新冠时代蓬勃生长,厥后在 3 月初我们决议向全球做科技抗疫的时刻,我的 email 放在通告上作接口,因此亲自看到了中国从发作疫情以来,一个短短的两周的时间内,也许也就是到一个月, 当你一项手艺抓不住时间窗口,不能够雪中送炭的时刻,我们就很难帮到社会的,然则我们阿里云有幸做到了这个,我们看到科技的气力。

回到戈登贝尔奖,我们看到苏州有异常壮大的医药康健产业,使用这种AI辅助药物的挖掘和虚拟筛选,今天我们看到依赖于成百倍、上千倍增添的 AI 算力。

适才是题外话,我今天第五第六页的时刻我原来写的是恭喜深势科技入围,但今天他们摘取了戈登贝尔奖,是异常了不起的事情。证实 HPC , AI 和物理实验三者连系的新范式。

我今天讲内容实际上两部门,第一部门是 AI 手艺怎么样促进药物研发。

第二部门,主要的手艺是 CT 辅助的新冠病情它整个的情形。

尤其是分享适才我说的集中的二三四月份到五月份,它是什么态势?我们今天很有幸可以在这内里坐在这儿开会,但实际上全天下新冠疫情生长照样个未知数,以是今天讲到科技有多大的实力,在药物产业和生命科学这个行业有异常大不确定性和需要历久的起劲。

这是我们阿里云科技抗疫的一个时间线。

1 月 21 日,我们也许是 23 、 24 号放假, 24 号左右武汉封城。21 日我们还在上班,中午的时刻突然想起来,我给一个很主要的互助伙伴,全球康健药物研究中央,它是比尔盖茨基因会和中国一起互助的机构,我说你能不能算一下,武汉的病毒 DNA 序列刚宣布,算一下这个病毒跟 SARS 的区别, GHDDI 使用阿里云的资源,我们已经互助过很长时间,也许两个半小时以后,拿到了效果,新冠病毒和 SARS 病毒的蛋白质结构 90的相似性,

然则很受惊的发现,估量传染性是 3 倍以上,然则那时刻不能宣布。接下来我们发现这种企业跟科学家互助情形,可以推动我们尽快的确立把新药研发这套设施和数据库放上让所有公共科研使用。

那时那么想,由于马上就春节放假了,几个主要科学家都回家了,由于疫情阻隔没有设施去办公室,厥后人人看到了,不管是钉钉,照样各大互联网公司提到的互联网线上的新基建,实在给科学家提供了最好的雪中送炭的工具,我们29日的时刻,就由这件小事驱动确定向全社会开放 AI 免费算力。

在谁人时刻人人都在家内里,我们跟各个科研的先生包罗我们和浙大、清华大学、湘雅医院、钟南山医院,实在跟终南山团队的会挺感人的,我们谁人时刻在家里的时刻,实在起的对照晚,但他们八点之前起来都戴着口罩,在医院内里跟我们视频通话。

谁人时刻我们知道,全天下靠的是有履历的科学家的大脑。然则这么一个未知的病毒怎么排查它,靠科技我们会不会更早看到?

医药产业生长到今天,实在若是人人读一些科普的书,就是医药生长的历史,是异常撞大运的历程,真正广谱药实在是手指头数得过来的,从土壤中找到,通过化学、通过工业化、科学产生了许多公司,这些公司实际上是解决怎么样大规模生产,然则找到这个药物,还要让它能够在毒性上面、浓度上面让人体的连系,异常难的,一样平常新药的研发到上市平均时间是 13 年左右,投入异常伟大。

这个历程中, 现在大量的生命科学的盘算,它主要的研究阶段基本上通过盘算完成,全天下包罗中国的超算中央,前 10 位的应用内里,也许有 4 个以上都是分子动力学、量子力学做第一性原理盘算。

我们适才说疫苗为什么这么难?由于它要做三期实验做完,一年两年的时间。

,科技前沿,

我们发现在支持历程中接纳 GPU ,接纳AI的筛选这个算法越来越是加速,我们把它抽象出来就是生命科学盘算有三大类,一类就是生物信息学,就是基因序列剖析,比对和连系。

另有一大部门盘算量异常重大,今天为什么超算还在不停的往前增添盘算能力,是由于我们要模拟和完全领会一个细胞的仔细情形,和大量细胞这种盘算量都是异常难的,戈登贝尔奖之以是给深势科技,是他们将分子动力学的一类盘算并行度扩展到 10 亿个分子级别。

第一,伟大量的盘算是用在第一性原理,许多的应用,我们找到化合物蛋白质的基因测序做筛选比对。美国刚刚拿到武汉的序列之后,第一个给可能药物是德州大学的科学家,为什么?由于这些科学家平时早做这个,脑子内里知道哪一类的化合物有用的,然则我们不能靠个把人,而且人的履历和处置都是有限的,以是现在泛起了 AI 和机械学习以后,大量的筛选比对,同时跟全天下的开源的医药分子库去做连系,这个历程实在是大量的知识图谱的筛选。

在这个历程中 GHDDI 在阿里云上确立了全球开放式的新冠研究平台,算出八种最有用的化合物,盘算上来讲第一位是瑞德西韦,然则人人仍然看到,算出来是对的,然则用起来不一定有用的,这个历程中看到云盘算起到了异常主要的作用。

通过阿里云全球加速服务,我们在第一时间能够马上获得跟全天下的开源药物库去团结,把外洋服务网站和他们的数据所有拉通,海内许多研究需要这样的历程,我们通过阿里云的超盘算集群,去提供服务。基本上都是接纳八张 GPU 卡, V100 的算力,已往几天的盘算量,今天也许 4 个小时,但总体仍然不够用的。我们知道分子尺度和规模,这就是我适才讲过了,这个平台在春节时代上线,跟外洋医药数据库同步更新,通过阿里的 OSS 的同步加速放过来,主要是接纳这个模式。

现在也许有 100 多申请 GHDDI 服务,十几家已经算出效果,实在我们发现科学家第一时间获得支持的主要性,实在回头看,中国是最早接触到的病毒,我们最早有病例。实际上第一时间也许是用了三周密周围的时间把这十几家全支持起来,一旦起来以后实际上它的功效被厥后的研究复用,这一个阶段的事情就是在和病毒赛跑。

往下人人会想到另外一个问题筛查的问题,那部门的时刻,我看到收到的需求就像脉冲,所有集中在那几周,需求 email 雪片般飞来,几周已往以后没有人申请了。

当这个时间窗户开的时刻,要有手艺和能力,没有接住,再也没有你的机遇,从这件小事儿上可以看出来。

另外,我已往做过十多年的高性能盘算是在做硬件和装备,中国也有许多上榜的超算系统,今天,我发现在科研领域,更主要是产业的公司在做这个事情它的灵活性,好比深势科技异常伶俐的使用我们 Spot 实例,就是抢占型实例, 30% 的成本就支持整个的大规模盘算服务。这就是他们的文章,今天早上新闻说出来已经获奖了,我们看到云盘算的灵活性,这是我们后台看到的资源使用量,10 月以后这部门整个量上来了,由于他们做优化研究,要做强扩张,即便只有一个分子的盘算,给它不停的切到许多张 GPU 卡上去,是不是可以有用加速,这部门事情需要大量的随时可获得的资源、弹性的资源,阿里云 EHPC 提供了支持。

接下来第二部门,第二部门这个故事我感想异常深, 3 月初一天马先生决议阿里云科技抗疫对全天下开放,团队说要不要你来吸收邮件,我那时有些犹豫的,由于另有一样平常事情。确实打开以后,从那天最先,一直到 4 月 29 日,天天全天下的时差响应 email ,不停有邮件涌进来。这几个月时代数字异常清晰, 50 个左右的国家和地区,但一最先对照恐慌的是一些还没有疫情的国家,保加利亚、立陶宛什么的。写邮件过来的时刻说, 我们医疗设施,没有设施抵御打击的,虽然我们境内还没有若干,然则我们很怕马上就有,监测不过来,以是 90% 来找我们提供了阿里达摩院做的新冠肺炎的 CT 影像剖析。CT 监测对照准尤其在后面,治疗历程中决议病灶,怎么确定通俗肺炎照样新冠,我们在新冠之前我们做这个事情,一样平常我们现在的 CT 监测,一个主要靠医生,但实际上我们通过卷积神经网络,可以把结节的分类,通过它的特征给它标出来盘算,它主要的就是说我可以异常快的来做这个事,我们支持海内的医院,他们海内在抗疫战场上的医院,天天处置大量 CT 片的监测,辅助医生监测。

那时一些医学研究生学生还不能上学,被紧要招回学校,为什么呢?要做大量的 CT 检测筛查,那时武汉的 CT 会涣散给湘雅医院另有许多医院。读片速率异常快,包罗火神山,人人可以看这个数字,最快两秒钟可以完成。由于时间有限没有放另外一个片子,谁人片子人人可以看到,除了把它检测筛查病灶, 支持医生最厥后做决议,另有一个在病灶历程中需要三维的重修,这个三维还原这个历程中知道治疗历程中变的多大了,变的多小。

是基本上控制住了,照样也有可能天生新的病灶,这个历程中很要紧的。下面是我们说的流行性和溯源,这部门很主要跟基因检测放在一起,阿里云跟浙大另有浙江的疾控中央,我们把基因库和基因组的筛查,这部门 AI 免费算力主要的偏向。

这样一来的话,实际上一方面大量的来自差异的医院,差异病例的这些样本会上云,在云上举行聚合,然后打标举行监测,另外一个我们把这部门器械跟第三方互助伙伴,把基因测序,基因的一体机做出来。

这样的话我们可以从机械的提供方拿到没有差异多样化的训练样本,为什么磨练这么准,越磨练越准,是来自云自己它的互通和互联性,这个是我们做的。

人人看到五倍的速率,三小时监控,十一小时测序。

这个历程实际上是集中一段阶段做这个事情。

第二,科技的生长和责任的经受一定要第一时间捉住它,解决它,提供价值。

今天我的演讲时间刚好到,给人人讲我的感想,我们 最后结论就是医药或者说生命科学一定是我们现在这个时代最主要的,也是需求最大的产业。

第二个云盘算和云盘算所支持的基建,通过这次疫情我们看到,是未来大力生长最基础的基础建设,谢谢人人。

再生元抗体药获紧急授权批准 但售价高昂恐限制应用前景

世卫组织在最新发表的一项研究中,就明确不建议医生对住院患者使用瑞德西韦。 另一方面,无论是瑞德西韦还是抗体药,高昂的价格成为药物普及的一个重要障碍,尤其是当这些药物只能用于治疗轻度或者中度病情的患者,医生…