国内自研大模型迎来新面孔,而且发布即开源!
最新消息,多模态大语言模型TigerBot正式亮相,包含70亿参数和1800亿参数两个版本,均对外开源。
由该模型支持的对话AI同步上线。
写广告语、做表格、纠正语法错误,效果都不错;也支持多模态,能生成图片。
评测结果显示,TigerBot-7B已达到OpenAI同样大小模型综合表现的 96%。
△公开 NLP 数据集上的自动评测,以OpenAI-instruct GPT-6B-SFT为基准,归一化并平均各模型的得分情况
而更大规模的TigerBot-180B或是目前业内开源的最大规模大语言模型。
此外,团队还一并开源100G预训练数据、监督微调1G或100万条数据。
基于TigerBot,开发者在半天内就能打造出自己的专属大模型。
目前TigerBot对话AI已邀请内测,开源代码数据等已上传至GitHub(详细链接见文末)。
如上这些重磅工作,来自一支最初只有5人的小团队,首席程序员&科学家就是CEO本人。
但这个团队,绝非师出无名。
从2017年起,他们就在NLP领域开始创业,专长垂直领域搜索。最擅长对数据重度以来的金融领域,和方正证券、国信证券等有过深入合作。
创始人兼CEO,有着20多年从业经验,曾任UC伯克利客座教授,手握3篇最佳顶会论文和10项技术专利。
如今,他们决心从专长领域走向通用大模型。
而且一开始便从最底层的基础模型做起,3个月内完成3000次实验迭代,还有底气将阶段性成果对外开源。
不禁让人好奇,他们是谁?想要做哪些事?如今已经带来了哪些阶段性成果?
TigerBot是什么?
具体来看,TigerBot是一款国产自研的多语言任务大模型。
覆盖生成、开放问答、编程、画图、翻译、头脑风暴等15大类能力,支持子任务超过60种。