中国高校最大云上科研智算平台上线 ,公共云模式大幅提升算力使用效率

  6月27日,国内高校最大的云上科研智算平台CFFF(Computing for the Future at Fudan)在复旦大学正式上线。这台为发现和解决复杂科学问题而建的科研“超级计算机”由复旦大学与阿里云等共同打造,以先进的公共云模式提供超千卡并行智能计算,支持千亿参数的大模型训练——这在国内高校中尚属首例,也领先于斯坦福大学等国际知名高校 。


  延续复旦大学“博学而笃志,切问而近思”的校训,CFFF平台由面向多学科融合创新的AI for Science智能计算集群“切问”一号和面向高精尖研究的专用高性能计算集群“近思”一号两部分组成。

  复旦大学浩清教授、人工智能创新与产业研究院院长漆远介绍,基于百G高速数据传输网和阿里云全球领先的大规模异构算力融合调度技术、分级存储技术、AI与大数据一体化技术,部署在复旦校内的“近思”一号和托管在1500公里外阿里云乌兰察布数据中心的“切问”一号连成了一台真正意义上的“超级计算机”,复旦四校区的所有实验设备都能高速接入,做到异构算力统一管理,计算任务统一调度,满足不同应用场景下的科学智能研究与应用需求。

  位于“东数西算”节点上的阿里云乌兰察布数据中心,通过飞天智算平台的公共云模式对外提供智能计算服务。

  2022年,阿里云发布了飞天智算平台,并启动乌兰察布数据中心等两座超大规模智算中心,为科研、公共服务和企业机构,提供强大的智能计算服务,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。


  据介绍,智算中心并不是简单把配置先进制程芯片的服务器连接起来就能实现高性能算力。一个很关键的指标就是损耗。智能计算在这个方面,难度更大。相比通用型计算,智能计算需要海量数据进行训练,在数据迁移、分布式训练等环节损耗尤其严重,传统智算中心达到一定规模之后,增加算力资源反而会降低算力输出的能力,千卡以上规模的算力输出最低往往仅有40%左右。但阿里云通过体系化的核心技术自研,以飞天智算平台作为输出,大幅降低了智能算力的损耗。

  漆远表示,有赖于公共云模式,跑在CFFF平台上的项目可享受到超千卡并行的智能算力,千卡并行的有效算力达到行业领先的92%,可拓展性达到万卡,万卡并行有效算力也可达90%。

  同时,公共云更加低碳和绿色。阿里云绿色数据中心技术结合乌兰察布当地天然的气候优势,CFFF平台可实现平台年平均PUE小于1.2,每年可节省总电力超过2000千瓦,节省电费500万元,年均节碳量达15吨。

(责任编辑:AK007)