谷歌、OpenAI产品对决一大看点：AI助手能否成为杀手级应用

zhiyongz 2年前 (2024-05-15) 阅读数 365 #谷歌

文章标签谷歌 OpenAI AI助手

本周，人工智能领域的头条新闻无疑就是OpenAI和谷歌的产品大对决。OpenAI公司一贯“喜爱”在竞争对手的重大产品发布会之前抢先发布自己的产品，从而抢占新闻焦点，本周也不例外。OpenAI在此前就给予了公众很高的期望值，周一（5月13日），该公司如期宣布了GPT-4的升级版，名为GPT-4o（“o”代表omni全方位）。

谷歌、OpenAI产品对决一大看点：AI助手能否成为杀手级应用谷歌 OpenAI AI助手第1张

GPT-4o旨在充当手机或平板电脑上的个人助理，具有改进的语音交互功能，能够解释和推理设备相机拍摄的照片，拥有更强大的语言翻译能力，以及更快的响应时间。

GPT-4o背后的技术创新令人印象深刻，该模型是多模态的，它可以实时对音频、视觉和文本进行接收、推理，并生成文本、音频和图像的任意组合输出。

该模型与过往版本比较，省去了将用户的声音转化为文本并处理的步骤，意味着整个流程更加快速。

GPT-4o还缩短了模型处理特定数量token所需的时间（在英语文本的情况下，一个token通常等于一个半单词），这也使得该模型比OpenAI此前最佳型号GPT-4 Turbo运行得更快、更便宜。

周二（5月14日），谷歌也连放大招，正面硬刚OpenAI。

在谷歌的I/O开发者大会上，谷歌宣布了一系列新的人工智能功能和即将发布的产品，包括Gemini模型的广泛升级、未来的人工智能助手“Astra”、生成式人工智能赋能谷歌搜索、以及一系列与图像、音乐、视频有关的生成式AI工具。

谷歌在会上公布了Gemini 1.5 Pro模型的改进，将100万tokens的上下文窗口进一步扩大至200万，并且使其能够拥有更自然的声音，更好地理解音频和图像，更强的逻辑推理和规划能力，以及更好的计算机代码生成能力。

并且，谷歌还发布了一款高级视觉和对话响应智能体项目Astra，用于处理音频、视频等多模态的输入内容。相较于OpenAI的GPT-4o只能处理静态图像，Astra还可以处理视频。在一段演示视频中，它能够通过摄像头视频，识别“什么东西能发出声音”、“现在身处何地”等指令。不过它的回应存在滞后或延迟，据悉，谷歌未来版本的人工智能个人助理正在通过“Astra”进行开发。

人工智能助手的“高光时刻”

从OpenAI和谷歌的产品发布可以看出，科技公司都非常重视人工智能助手的研发，并且，“首个人工智能杀手级应用”的位置已成为硅谷各家的“必争之地”。

从本周的产品发布情况来看，OpenAI和谷歌的人工智能助手各有优势。

GPT-4o可以直接接收并生成语音，省去了将语音转化为文本的过程；而Astra则可以处理视频此类的动态图像，这是一个显著的优势。

这两个产品的发布显然让硅谷另两家巨头苹果和亚马逊处于不利地位。他们需要升级语音助手Siri和Alexa，以跟上这些新的竞争对手的能力，否则这些产品将陷入困境。

就目前已知信息，亚马逊投资的Anthropic拥有强大的Claude AI模型可供使用；此前也有报道传出，苹果正在与OpenAI谈判，以在短期内获得其技术许可。

不过，这些新的人工智能助手就会是未来的“人工智能杀手级应用”吗？这个结论目前还没有定论，完全取决于接下来会发生什么。

就从目前的人工智能助手的用例来看，它们还称不上是人类日常生活中无处不在的必备产品，除了翻译功能以外，几乎没有一个是能够关于帮助人们完成工作的。

有分析指出，当这些助手拥有更多的“代理”属性时，这种情况可能会改变。若有朝一日，它们能够真正了解人类的个人偏好，按照人们的喜好完成任务，并且可以在日常生活中帮忙处理一些事情（例如在线购物、填写保险表格、预订假期等）时，这时的人工智能助手就很有可能成为一款“杀手级应用”。

谷歌目前表示正在开发此类产品，但没有给出产品发布的时间表；OpenAI也继续透露“即将”发布激动人心的未来公告；下周，微软将召开Build开发者大会。