2022年,从引爆AI作画领域的DALL-E 2、StableDiffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,AIGC不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼。学术界和产业界也都形成共识:AIGC绝非昙花一现,其底层技术和产业生态已经形成了新的格局。
就内容生产而言,AIGC作为新的生产力引擎,让我们从过去的PGC、UGC,已经不可避免地进入AIGC时代。AIGC代表着AI技术从感知、理解世界到生成、创造世界的跃迁,正推动人工智能迎来下一个时代。
经过了2022年的预热,2023年AIGC领域将迎来更大发展。AIGC生成内容的类型不断丰富、质量不断提升,也将有更多的企业积极拥抱AIGC。在这个背景下,腾讯研究院正式发布《AIGC发展趋势报告2023:迎接人工智能的下一个时代》。报告从技术发展和产业生态、应用趋势、治理挑战等维度,对AIGC的发展趋势进行了深入思考。
本文为报告核心内容摘要:
AIGC技术和产业生态
迎来发展快车道
AIGC的大爆发不仅有赖于AI技术的突破创新,还离不开产业生态快速发展的支撑。在技术创新方面,生成算法、预训练模型、多模态技术等AI技术汇聚发展,为AIGC的爆发提供了肥沃的技术土壤。
图:AIGC技术累积融合
第一,基础的生成算法模型不断突破创新。比如为人熟知的GAN、Transformer、扩散模型等,这些模型的性能、稳定性、生成内容质量等不断提升。得益于生成算法的进步,AIGC现在已经能够生成文字、代码、图像、语音、视频、3D物体等各种类型的内容和数据。
第二,预训练模型,也即基础模型、大模型,引发了AIGC技术能力的质变。虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。而预训练模型能够适用于多任务、多场景、多功能需求,能够解决以上诸多痛点。预训练模型技术也显著提升了AIGC模型的通用化能力和工业化水平,同一个AIGC模型可以高质量地完成多种多样的内容输出任务,让AIGC模型成为自动化内容生产的“工厂”和“流水线”。正因如此,谷歌、微软、OpenAI等企业纷纷抢占先机,推动人工智能进入预训练模型时代。
第三,多模态技术推动了AIGC的内容多样性,进一步增强了AIGC模型的通用化能力。多模态技术使得语言文字、图像、音视频等多种类型数据可以互相转化和生成。比如CLIP模型,它能够将文字和图像进行关联,如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。这为后续文生图、文生视频类的AIGC应用的爆发奠定了基础。