近期,功能更强大的GPT-4发布,从语言模型,走向多模态模型,实现强大的识图能力,在生成歌词、创意文本,实现风格变化等多项飞跃式提升,在各种专业测试和学术基准上表现与人类水平相当,震惊全球。
与此同时,“躺平”很久的国内科技圈、创投圈久违地支棱起来:美团王兴宣布,参与王慧文ChatGPT创业公司“光年之外”的A轮投资;李开复宣布筹组中文版ChatGPT公司“Project AI 2.0”;360也盯上了新风口,周鸿祎现身某券商的投资者大会,亲自科普ChatGPT新机遇;百度李彦宏则借助“文心一言”重入舞台中央。
一时之间,ChatGPT成了2023年科技圈、创投圈最靓的“仔”,最热门的“赛道”。公司还没成立,只画一个PPT,甚至一个饭局,就能吸引大量资金“买单”。
似乎,谁错过了ChatGPT,谁就错过下个十年的“BATJ”和“TMD”。那么,ChatGPT国内版,会是一个好的投资赛道吗?从技术逻辑上来讲,GPT通过对大模型的训练,不仅能够生成流畅自然的文本,还能完成问答、翻译、创作小说等一系列NLP(自然语言处理)任务,初步具备一定人的“智慧”,替代一些简单重复的工作;从商业逻辑上来讲,ChatGPT能够以更高效率、更低成本,替代大量重复、底端劳动,应用场景极广。
即使前景看上去很美好,但想要把ChatGPT国产化做成也并不容易,这里有几方面需要关注:
第一,ChatGPT是一个极其昂贵的“烧钱”游戏,需要极其庞大的资金投入。目前在没有看到稳定收入的情况下,仅微软投资对Open AI的投资已经超过100亿美元,再加上马斯克等其他投资,融资规模或超1000亿元人民币。用这么大的资金量支持一个早期企业,即便在过去十年VC/PE最狂热的时代,在国内也是都很难支撑;
第二,大模型训练,需要较先进GPU芯片A100/H100,目前这些芯片目前处于“断供”状态。作为替代和阉割版的A800芯片,目前国内也是奇缺。没有先进芯片支持,训练或大打折扣。
第三,中文互联网质量堪忧、信息孤岛现象严重,训练难度较大。中文互联网的信息量只占全球前100名网站的1.3%,而英语占60%。这些信息在过去十年,被封闭在无数封闭的APP和几个互相封闭对立的大平台里,比如公众号、头条号、抖音号、百家号、网易号等。
如果只是信息少和封闭也就罢了,目前看信息质量也是一言难尽。百度、阿里、腾讯、头条这四大巨头都直接或者间接屏蔽了各自爬虫,只有B站、知乎、微博等体量较小平台允许其它搜索引擎相对自由的爬取,这就进一步导致各家的搜索引擎都爬取不到有用的信息。