AI大模型应用爆发,云市场也在加速变革。
4月18日,火山引擎发布自研DPU等系列云产品,并推出新版机器学习平台。发布会后,火山引擎总裁谭待、字节跳动副总裁杨震原接受了《证券日报》记者采访。
面对当下白热化的大模型之争,谭待表示,“火山引擎不做大模型,要先服务好做大模型的公司。国内大模型领域的数十家企业,超过七成已经在火山引擎云上。”
在谭待看来,大模型不会一家独大。与其他云厂商力推自家大模型不同的是,火山引擎将接入多家大模型深度合作,为企业和消费者提供更丰富的AI应用。
“并池”复用资源
让大模型训练快速跑起来
今年以来,ChatGPT在全球掀起AI热潮,底层大模型相继涌现。据民生证券统计,目前国内已有超30个大模型亮相,其中包括阿里巴巴、百度、京东等互联网大厂和光年之外、百川智能等备受瞩目的初创企业。
业内有声音认为,大模型将成为云厂商弯道超车的机会。对此,谭待表示,大模型还在发展初期,面临数据安全、内容安全、隐私保护、版权保护等许多需要努力解决的问题。但可以预见,大模型将带动云上AI算力急剧增长,AI算力的工作负载与通用算力的差距会越来越小,这会为各家云厂商带来新的机会,同时也会给数据中心、软硬件栈、PaaS平台带来新的挑战。
以数据中心的算力结构为例,谭待表示:“大模型需要大算力,虚拟化会带来资源损耗,规模越大就损耗越多。未来3年内,大规模的算力中心,都将形成‘CPU+GPU+DPU’的混合算力结构,CPU负责通用计算,GPU负责AI计算,DPU负责资源卸载、加速和隔离,提升资源效率。”
谭待告诉记者,火山引擎要做的就是为大模型客户提供高稳定性和高性价比的AI基础设施,火山引擎机器学习平台一方面可以提供算力供给,另一方面,也能帮助大模型客户用好算力提升效率。
据悉,火山引擎宣布与字节跳动国内业务并池。杨震原告诉记者,所谓并池的池,可以理解为计算池,包括计算、存储、服务器、容器等单元,并池意味着在共享的资源池里调度资源,从而提高整体资源利用率。
火山引擎机器学习平台经过抖音等海量用户业务长期打磨,支持单任务万卡级别的超大规模分布式并行训练场景。GPU弹性计算实例可灵活调度资源,随用随取,最高可以为客户节省70%的算力成本。
谭待表示,火山机器学习平台的优势之一就在于“内外同款”,例如通过内部抖音大规模的训练场景进行打磨,通过实战积累经验。因此,基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用,离线业务资源分钟级调度10万核CPU,在线业务资源也可潮汐复用,弹性计算抢占式实例的价格最高可优惠80%以上。