从人机交互角度,聊聊最近爆火的ChatGPT-4o

首先我们还是先来看看 GPT-4o 更新的主要内容(只关注交互角度解读可跳过):

  1. 多模态交互能力:ChatGPT 4.0 支持图像和文本输入,并能输出文本,具备多模态交互的能力。这意味着它可以理解图像内容,并生成字幕、分类和分析等操作。
  2. 自然语言理解能力提升:在自然语言理解方面有显著提升,这使得 ChatGPT 4.0 能够更好地理解用户的输入,并根据用户的语境提供更准确的回答。
  3. 上下文长度增加:ChatGPT 4.0 的上下文长度得到增加,这使得模型在处理长篇对话时表现更佳,能更好地理解整个对话的背景和上下文,从而给出更准确和恰当的回答。
  4. 数据分析及可视化作图功能:通过直接打通相关功能模块,ChatGPT 4.0 能够利用自然语言交互,根据知识库、在线检索到的数据进行数据分析及可视化作图。
  5. DALL·E 3.0 功能:ChatGPT 4.0 引入了 DALL·E 3.0 功能,允许用户上传图片并在其上进行查询,可以直接从必应浏览,并直接使用 ChatGPT 中的 DALL·E 3.0 功能,在图片上进行创作。
  6. 模型架构和训练数据的进步:开发者在这个版本中引入了更先进的模型架构、更多的训练数据和更多的语言数据,将聊天机器人的性能提升到了一个新的高度。
  7. API 开放和价格优惠:新版本 GPT-4 Turbo 支持 128k 上下文,知识截止更新到 2023 年 4 月,视觉能力、DALL·E3,文字转语音 TTS 等功能全都对 API 开放,同时 API 价格还打了 3-5 折。

这其中的第 1、2、3、5 点都可以从人机交互的角度聊一聊。

第 1 点:多模态交互能力。

今天作者也看了一些写 GPT-4o 更新的文章,有些人仅仅把多模态交互能力理解成了我们可以不仅仅使用文字和 GPT 交流了,这么理解实在太小看多模态交互能力了。

要知道,人类通过文字表达和声音表达,即使是完全同样的文本。所包含的信息也有很大的差别。文字只是静态的信息,而声音包含更多维度的信息。例如语音、语调、音量、语速、停顿、重音等等。

同样是「你好」,文字只能表达 1 种含义,而声音可能能表达 4-6 种。对于程序来说,多模态交互意味着从更多来源获得信息(指视、听、文、环境等来源)。也意味着获得更多信息(例如刚刚所说的声音维度的语音、语调、音量、语速、停顿、重音)。

从多来源获得信息并获得更多信息,GPT 就可以缩短推理、判断等过程,更快速的给与用户回复。这就像是用户自动的把提问描述的更详细了,把自己的要求说的更清楚了,如此一来 GPT 给与反馈的速度和质量自然会有对应的提升。(当然同样也有模型方面带来的提升)

除了声音之外,GPT-4o 的多模态交互能力还包括视觉理解能力,例如能识别图像中的人脸,分析性别、年龄、表情等信息。这同样是我们刚刚所说的从更多来源获得信息以及获得更多信息。

以上是多模态交互能力中,人向 GPT 输入过程中的意义,那么对于人机交互的另一部分:GPT 向人输出的阶段,同样意义非凡。

GPT-4o 可以根据需要以最合适的模态进行回应,在之前 GPT 只能以文字进行回复,但之后则可以是文字、声音、图像。声音模态的意义是支持更多交流场景以及对无障碍交互的包容。图像的意义就不用多说了吧,无论是取代了命令行界面的图形化界面,还是你晋升答辩时准备的 PPT,都能体现图像相对于文字的优势。

第 2 点:自然语言理解能力提升

如果说多模态交互能力代表了输入和输出这两个阶段。那自然语言理解能力就代表了「处理」这个阶段。当 GPT 从多来源获得信息后,下一步就是理解这些信息,理解过后才能给出回复信息。自然语言理解能力的提升意味着 GPT-4o 对用户意图的识别更加准确了。那么自然后续回复的内容、回复的模态都会有更高质量的结果。

第 3 点:上下文长度增加

这一点的意义首先体现在长篇对话上,我们可以类比人与人之间的交流方式,两个相识了多年的朋友,可能他们一句很短的对话就可以包含非常大的信息量,例如张三对李四说:你上回那个设计方案真是太牛了!

这句话本身没提及但张三和李四都能理解的信息可能有:

  1. 设计方案的具体内容
  2. 设计方案的效果
  3. 时间点(上回)

如果想清晰的表达以上的 1、2、3 包含的具体信息,可能需要上千字或十分钟的对话才能说清楚,但由于这些信息都已经被储存在人的记忆中,两人在交流的过程中就可以省略很多详细的描述和前置条件,用一句话表达大量信息。

对于 GPT-4o 而言,可记忆的上下文长度增加就意味着他变成了一个对你更熟悉的程序,所以当用户与 GPT-4o 交流时,就可以像张三和李四交流那样使用更少的信息交流更多的信息,同时能够保障交流质量。

要注意的是,刚刚我使用了对你更熟悉的程序这样的描述,而不是对你更熟悉的朋友这样的描述,这里面关键的区别有两方面,第一方面是所谓的上下文长度,可以类比人与人相识的时间和交流的信息总量、了解程度。

第二方面是我们可以畅想一下,如果现在的新生代儿童从很小的年龄就开始使用 AI 工具,并且 AI 工具附着在便携式智能设备上,以多模态与用户同时感知周围环境,再加之 GPT-4o 的可贯穿数十年的可记忆上下文长度。这样的 AI 可能会成为用户最熟悉的朋友,甚至远超父母、家人。如果再给与这个 AI 相应的硬件,那几乎可视为智械族了~

第 5 点:DALL·E 3.0 功能

文生图能力以及对图片的智能编辑能力已经是很多其他产品早已具备的了,不过 GPT-4o 这次更新帮助用户节省了之前都是由用户操作的不同数据类型转化的操作,改为由 GPT-4o 代替,对用户来说同样是操作效率的提升。就像我们之前如果在某张图片上看到了一个新概念,那可能需要用打字或 ocr 的方式将图片转化成文字再继续使用。而 GPT-4o 以后将为用户省掉这个过程。

其他的像创意工作、广告制作、产品设计、教育演示等方面的意义就不再多说,市面上已经有很多类似的产品了。

在整个发布会之中,还有一个令用户们 wow 的点是 GPT-4o 的响应时间仅为 232 毫秒(平均 320 毫秒),几乎达到了与人类实时对话的水平,显著优于前代模型的延迟表现。

其实我们可以从以上的解读中思考一下,为什么 GPT-4o 的响应时间得到了如此大的提升?

第 1 点:意味着 GPT-4o 获取信息的速度更快了,信息量更多了。

第 2 点:意味着 GPT-4o 理解这些信息更快了。

第 3 点:意味着 GPT 能从上下文获得更多用户没有直接表达的信息。

综合以上 3 点提示再加上本身模型能力的提升,GPT-4o 的响应时间达到 232 毫秒也就容易理解了。

当 GPT-4o 的响应时间达到了人类与人类对话的水平时,很多应用场景的想象空间就更大了。具体作者想到了如下几方面:

  1. 实时交互性增强:这样的响应速度使得人机对话接近无缝对接,几乎消除了传统人工智能助手在处理请求和提供回复之间的感知延迟。用户在与 GPT-4o 交流时,会感觉像是在与另一个真实人类进行自然流畅的对话,可以大大提升了交互的真实感和满意度。
  2. 用户体验优化:更快的响应时间减少了用户等待反馈的心理负担,使得交流过程更加舒适和高效。这对于需要快速反馈的场景尤为重要,比如紧急情况下的信息查询、即时决策支持或者快节奏的商业沟通。并且更加与人与人的交流相似了,想象一下我们在和朋友聊天的时候,一般不会等个 3 秒再说话吧?
  3. 应用场景拓展:由于能够实时处理音频、视觉和文本信息,GPT-4o 打开了通往更多应用场景的大门。例如,在客户服务、教育辅导、远程医疗、虚拟助理、游戏交互等领域,实时交互能力都是提升服务质量和效率的关键。