由ChatGPT掀起的大模型浪潮仍在继续。被誉“AI第一城”的北京,率先将重点落在了政策上。《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》(以下简称《若干措施》)5月12日起向社会公开征求意见,5方面21条措施涵盖了算力、数据要素、大模型技术、应用场景等诸多受到广泛关注的领域。而在AI“新基建”领域,《若干措施》也画出了一条涵盖算力、算法以及数据训练的清晰图谱。作为“人工智能实现的基础之一”,教育、自动驾驶和医疗等领域都是大模型的应用场景,未来大模型或将改变短期内“碎片化的协助作用”,带来全流程的个性、精准化服务。
算力、算法与数据
数据、算力和算法,号称人工智能的“三驾马车”,缺一不可。而眼下的重点在于,这场始于AI领域的全球竞赛,却先在算力上引起了一波“焦虑”。上个月,OpenAI停止ChatGPT Plus的销售,便让人猜测是因为需求量过大,计算资源供不应求,随着国内大模型相继入局,对于算力紧张的猜测也自然蔓延至国内。
《若干措施》的第一条正发力在这一领域,在组织商业算力定向满足本市紧迫需求、高效推动新增算力基础设施建设以及高效推动新增算力基础设施建设三个方面提出了具体的举措。
具体而言,《若干措施》提到,将加强与头部公有云厂商等市场主体合作,实施算力伙伴计划,并确定首批伙伴计划成员,新增算力建设项目纳入算力伙伴计划,加快推动海淀区“北京人工智能公共算力平台”,朝阳区“北京数字经济算力中心”等项目建设,快速形成规模化先进算力供给能力,支撑千亿级参数量的大型语言模型、多模态大模型、大规模精细神经网络模拟仿真模型、脑启发神经网络等研发。
在算法方面,《若干措施》提到,要开展大模型创新算法及关键技术研究,在数据方面,则更聚焦在“高质量”这一关键词。例如针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,《若干措施》便提到,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗等。
高质量的数据需要“国家队”的护航,在这一领域,《若干措施》表示,加快推动数据要素高水平开放的“国家数据基础制度先行先试示范区”建设,争创国家级数据训练基地,提升北京人工智能数据标注库规模和质量等。
“《若干措施》相当于一个非常明确的专项政策,用以统筹全市资源,更好地赋能、促进人工智能的发展,这种调集全市之力制定专门的政策规划推动一件事的情况,在全国范围内都是相对比较少见的。”北京社科院研究院王鹏如此评价道。