由 Stability.ai 发布的开源模型 Stable Diffusion 可以说是目前最主流也是最重要的 AI 绘画模型之一。
基于开源的 Stable Diffusion,开发者社区创作了许多有意思的插件和模型,例如可以控制图形形状的 Control Net 项目等,相关的开发项目超过 1000 个。
现在,这家热衷于开源的 AI 公司又想搞一个大事情——发布一个类似 ChatGPT 的开源大语言模型。
人人都有 LLM
2023 年可以说大语言模型井喷的一年,这几个月以来,几乎每个星期都有一个新的大语言模型面世。大模型、小模型、文本生成的、多模态的、闭源的、开源的……现在就是大语言模型的春天,各家百花齐放。
这份热闹不仅属于微软、Google、百度、阿里等互联网大厂,也属于所有与 AI 相关的科技公司。
和现有的大模型相比,Stability.ai 发布的 StableLM 大语言模型有什么特别的呢?
根据 Stability.ai 的介绍,目前 StableLM 是一个开源且透明的模型,允许研究人员和开发者自由地检查、使用和修改代码。就像 Stable Diffusion 一样,用户们都可以自由地配置 Stable LM,打造专为自己需求而量身定制的大语言模型。
目前 Stable LM Alpha 版本模型的参数大小为 30 亿和 70 亿,未来 Stability.ai 还会提供 150 亿和 650 亿参数大小的模型版本。
尽管和 GPT-3 模型的 1750 亿参数相比,StableLM 的模型大小要小得多,但 Stability.ai 表示 StableLM 是基于一个比 The Pile 数据集还要大 3 倍的扩展数据集训练而成,在编码和自然语言对话方面都有不错的表现。
The Pile 数据集本身已经包括了大量书籍、Github 知识库、网页、聊天记录等数据,还收集了医学、物理、数学、计算机科学和哲学学科的论文,可以为通用大语言模型、跨领域文本生成训练提供很好的基准。
因此在实际使用时,StableLM 与 GPT-3 的差距并不像纸面参数数据的差异那样明显。