谷歌旗下的基于人工智能的聊天机器人 Bard 在执行逻辑和推理任务方面能力逐渐改进。这是根据谷歌今天发布的一篇博文所述,该博文表明,通过一种名为「隐式代码执行」的技术,Bard 在数学和编码等领域有了显著改进。
正如博文所解释的那样,Bard 等大型语言模型(LLM)本质上是预测引擎。当给出一个提示时,它们通过预测下一个句子中可能出现的单词来生成回答。这使得它们在撰写电子邮件和文章方面非常出色,但在软件开发方面却有些容易出错。
但是,你可能会问,GitHub 的 Copilot 和亚马逊的 CodeWhisperer 之类的生成代码模型呢?这些并非通用型。与 Bard 和 ChatGPT 等竞争对手不同,后者使用了来自网络、电子书和其他资源的广泛文本样本进行训练,Copilot、CodeWhisperer 和类似的生成代码模型几乎完全是在代码样本上进行训练和调优的。
为了解决通用型语言模型在编码和数学方面的不足,谷歌开发了隐式代码执行,使 Bard 能够编写和执行自己的代码。最新版本的 Bard 会识别可能受益于逻辑代码的提示,并在「幕后」编写代码、进行测试,并使用结果生成看似更准确的回答。
根据内部基准测试,谷歌表示,与之前版本相比,新版 Bard 对「基于计算的」词语和数学问题的回答提升了 30%。当然,我们还需要看这些声明是否经得起外部测试的考验。
「尽管有了这些改进,Bard 并不总能做到完全正确,例如,Bard 可能不会生成帮助回答的代码,它生成的代码可能是错误的,或者 Bard 可能不会在回答中包含执行的代码,」Bard 产品负责人 Jack Krawczyk 和工程副总裁 Amarnag Subramanya 在博文中写道。「尽管如此,这种改进的能力以结构化、逻辑驱动的方式回应是使 Bard 变得更有帮助的重要一步。」
当谷歌今年早些时候推出 Bard 时,与 Bing Chat 和 ChatGPT 等相比,它并没有表现得那么出色。事实上,推出过程出现了一些问题,谷歌的一则广告中 Bard 给出了一个错误的答案,导致该公司股价短暂地下跌了 8%。
为了改善这些问题,谷歌引入了隐式代码生成等其他改进措施,并增加了对新语言、多模式查询和图像生成的支持。然而,要想在该领域与领先的生成式人工智能聊天机器人保持竞争力,谷歌还需要进一步努力。
最近,Anthropic 推出了一款具有大幅扩展「上下文窗口」的人工智能聊天机器人模型,使其能够相对连贯地进行长时间的对话。而开发 ChatGPT 的 OpenAI公司也开始支持插件,为 ChatGPT 增添外部知识和技能。