ChatGPT 如何将生成式 AI 变成“万能工具”

25

ChatGPT 如何将生成式 AI 变成“万能工具”

How ChatGPT turned generative AI into an “anything tool”

今年早些时候,一家机器人初创公司的首席技术官告诉我,“我们原以为必须做大量工作才能构建‘机器人版 ChatGPT’。事实证明,在很多情况下,ChatGPT 就是机器人技术的 ChatGPT。”

直到最近,人工智能模型还是专门的工具。在机器人等特定领域使用人工智能意味着要花费时间和金钱专门为该领域创建人工智能模型。例如,Google 的 AlphaFold 是一种用于预测蛋白质折叠的 AI 模型,它是使用蛋白质结构数据进行训练的,并且仅对处理蛋白质结构有用。

因此,这位创始人认为,为了从生成式人工智能中受益,机器人公司需要为机器人创建自己的专门生成式人工智能模型。相反,该团队发现,在许多情况下,他们可以使用现成的 ChatGPT 来控制他们的机器人,而无需对人工智能进行专门训练。

我从从事从健康保险到半导体设计等各个领域的技术专家那里听到过类似的说法。为了创建 ChatGPT(一种让人类通过简单对话即可使用生成式 AI)的聊天机器人,OpenAI 需要更改 GPT3 等大型语言模型 (LLM),以更加响应人类交互。

但也许无意中,这些相同的更改让 GPT3 的后继者(例如 GPT3.5 和 GPT4)被用作强大的通用信息处理工具 - 这些工具不依赖于AI 模型最初训练的知识或模型训练的应用程序。这需要以完全不同的方式使用人工智能模型——编程而不是聊天,新数据而不是训练。但它为人工智能成为通用而不是专门的、更像是“任何工具”开辟了道路。

现在,在人工智能大肆宣传的时代,有一个重要的警告:当我说“通用”和“任何工具”时,我的意思是 CPU 是通用的,而不是专用信号-加工芯片。它们是可用于多种任务的工具,但并非万能且无所不知。就像优秀的程序员不会在没有代码审查和单元测试的情况下将代码部署到生产中一样,人工智能输出也需要自己的流程和程序。我下面讨论的应用程序是提高人类生产力的工具,而不是疯狂运行的自主代理。但重要的是要认识到人工智能可以有用地做什么。

那么,我们是如何走到这一步的呢?

基础知识:概率、梯度下降和微调

让我们花点时间来了解一下为生成式人工智能提供支持的法学硕士如何运作以及他们如何接受培训。

像 GPT4 这样的 LLM 是概率性的;他们接受输入并预测与该输入相关的单词和短语的概率。然后,它们生成最有可能适合给定输入的输出。这就像一个非常复杂的自动完成功能:输入一些文本,然后告诉我接下来的内容。从根本上说,这意味着生成式人工智能并不生活在“对与错”的背景下,而是“更有可能和更不可能”的背景下。

概率论有优点也有缺点。其弱点是众所周知的:生成式人工智能可能是不可预测和不精确的,不仅容易产生糟糕的输出,而且会以你意想不到的方式产生输出。但这也意味着人工智能可以变得不可预测地强大和灵活,这是传统的、基于规则的系统所无法做到的。我们只需要以一种有用的方式塑造随机性。

这是一个类比。在量子力学出现之前,物理学家认为宇宙以可预测的、确定性的方式运行。量子世界的随机性起初令人震惊,但我们学会了拥抱量子怪异,然后实际使用它。量子隧道效应本质上是随机的,但它可以被引导,使粒子以可预测的模式跳跃。这就是半导体和为您正在阅读本文的设备供电的芯片的诞生。不要仅仅接受上帝与宇宙玩骰子的观点——学习如何加载骰子。

同样的情况也适用于人工智能。我们使用一种称为“梯度下降”的技术来训练法学硕士所构成的神经网络。梯度下降查看模型产生的输出,将其与训练数据进行比较,然后计算“方向”来调整神经网络的参数,以使输出变得“更”正确,即看起来更像训练数据给出了AI。对于我们神奇的自动完成功能,更正确的答案意味着输出文本更有可能遵循输入。

概率数学是计算机处理单词的好方法;计算某些单词跟在其他单词后面的可能性只是计数,对于计算机来说,“有多少”比“更正确或更错误”要容易得多。产生输出,与训练数据进行比较并进行调整。冲洗并重复,进行许多小的、渐进的改进,最终你会将一个输出乱码的神经网络变成产生连贯句子的东西。而且这项技术还可以适用于图片、DNA 序列等。

转自:https://arstechnica.com/ai/2023/08/how-chatgpt-turned-generative-ai-into-an-anything-tool/