硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）

zhiyongz 8个月前 (05-15) 阅读数 #虚拟现实

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第1张

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第2张

6）提示：“这是一张长曝光照片，拍摄于星光灿烂的夜空中，银河位于魔幻时刻的海滩上方。在光绘摄影中，银河明亮而突出，在深蓝黑色的氛围中，可以看到许多星星，色彩生动大胆。使用专业相机拍摄，对比度高，构图风格为电影风格。”（A long exposure photo of the Milky Way in a starry night sky, centered over an ocean beach at magic hour. The milky way is bright and prominent with many stars visible against a dark blue black atmosphere in light painting photography with vivid and bold colors. Shot on a professional camera with high contrast and a cinematic composition in the style.）

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第3张

Google 的最新图像生成模型，Imagen 3，目前尚未对外开放。如果您对此感兴趣，可以通过以下链接加入等待名单，

申请体验使用权限：https://aitestkitchen.withgoogle.com/tools/video-fx

音频模型

1）类似GPT-4o实时对话+视频聊天：Google Project Astra

两段演示视频，这展示了 Google DeepMind 对未来 AI 智能体的设想。每段视频均为单次拍摄、实时录制完成。

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第4张刷新

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第5张

视频详情

另一个 Google Project Astra 演示，陪你一起看 Google I/O 直播并为你解说。效果挺不错的，能完整的介绍会议的内容，还能回过去看之前发生的事情，说明有“记忆”能力。美中不足是机器感太足，缺少一点情感，另外响应时间要稍微长一点，对比一下 GPT-4o 就能发现其中差距。

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第4张刷新

视频详情

没有对比就没有伤害。不得不说 OpenAI 真是坏，看完 GPT-4o 的演示再看 Google 的，一下子就黯淡无光了，如果没有 GPT-4o 的演示其实还不错的。

2）音乐合作的极致伙伴：Music AI Sandbox

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第4张刷新

视频详情

“Music AI Sandbox”是由Google DeepMind与YouTube联合推出的一套创新工具集，旨在为音乐创作者提供全新的音乐制作方式。这些工具利用最先进的人工智能技术，帮助音乐家从作曲、编曲到最终制作等各个环节，以创新的方式优化和加速音乐创作过程。

无论是专业音乐制作人还是业余爱好者，都可以通过这些工具探索音乐的新领域，并将自己的创意实现转化为现实。

我们正与音乐家、作曲家及制作人合作，共同探索人工智能在音乐创作过程中的潜在魅力。

Wyclef Jean、Justin Tranter 和 Marc Rebillet 是首批利用 Music AI Sandbox 发布新作品的艺术家，现在你可以在他们的 YouTube 频道上欣赏到这些作品。

视频模型

Veo 是由 Google DeepMind 开发的迄今为止最先进的视频生成模型。它能够生成超过一分钟、高达1080p分辨率的高质量视频，展示多种电影和视觉风格。

这个模型具有从单一提示出发，或者通过一系列叙述性的提示，制作并延长至60秒以上的视频片段的能力。这一功能为电影制作人和内容创作者提供了探索新的叙事技巧和视觉表现形式的可能，推动了传统视频制作的界限。

下面这段视频是Veo直接输出的未经编辑原始片段，是根据以下提示制作的：

在一个充满霓虹灯、飞行汽车和雾气的繁忙反乌托邦城市中快速穿梭，场景设定在夜晚，配有镜头光晕和体积光。

在一个布满明亮霓虹灯、天空中飞舞星舰的未来派反乌托邦城市中快速穿梭，场景同样设定在夜晚，并有体积光效。

一辆以光速行驶的汽车的霓虹全息影像，电影级的惊人细节和体积光效。汽车驶出隧道，重返现实世界的香港城市

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第4张刷新

视频详情

看起来和初代的 Sora 至少还有半代的距离

想体验 Google 的文本生成视频模型Veo，可以申请加入 google labs 的候补名单，试用他们的实验工具 VideoFX 中的一些 Veo 功能。

申请地址 → https://aitestkitchen.withgoogle.com/tools/video-fx

AI时代的Google搜索引擎

Google搜索即将引入一项革命性的多步骤推理功能，这是对其核心产品进行的一次重大改进。在最新的演示中，我们可以看到谷歌如何利用先进的人工智能技术，几乎完全重构了谷歌搜索的产品形态。

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第4张刷新

视频详情

这一改变不仅仅是在界面上的调整，而是在功能和处理信息的方式上进行了深刻的革新。新的搜索机制将通过AI进行搜索、总结和生成，使得用户能够得到更加精准和深入的搜索结果。这种使用AI进行多步骤推理的方法，将极大地提升用户体验，使得获取和处理信息变得更加高效和直观。

几乎完全用AI重构了谷歌搜索的产品形态：搜索-总结-生成。

往期回顾

1、[在刚刚Gemini黑客马拉松上，Google创始人谢尔盖·布林透露对AI发展潜力的独到见解] 硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第14张

2、[微软的AI愿景：如何塑造全球最高市值公司的未来，一次与Satya Nadella的深度访谈] 硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第14张

3、[MIT联合谷歌共同推出了一项免费生成式人工智能在线课程] 硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第14张

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）第14张

我们的AI团队现向外界开放服务，旨在助力每个企业与个人引领时代潮流，将先进科技与创新想法完美融合!

告别昂贵服务费和缺人烦恼,再见漫长交付周期

无限创意风格,分分钟生成专业级作品

感受 AI 带来的全新工作体验！

欢迎各大品牌方、媒体、科技企业、知名IP等合作

合作请联系负责人微信：Milo-1101

--END--

版权声明

本站所有文章来源于本站原创或网络，如有侵权请联系删除。文章观点并不代表本站观点，请网友自行判断，如涉及投资、理财请谨慎应对！

上一篇：问界 M7 起火事故，官方回应了（不看后悔）下一篇：郦食其作为刘邦麾下顶级说客，为何被烹杀？（这都可以？）

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

硅谷AI巨头硬碰硬！OpenAI,2024年开发者大会全面布局多模态人工智能,文本、图像、视频一网打尽!（学会了吗）

音频模型

1）类似GPT-4o实时对话+视频聊天：Google Project Astra

2）音乐合作的极致伙伴 ：Music AI Sandbox

视频模型

AI时代的Google搜索引擎

往期回顾

告别昂贵服务费和缺人烦恼,再见漫长交付周期

无限创意风格,分分钟生成专业级作品

感受 AI 带来的全新工作体验！

版权声明

作者文章

2）音乐合作的极致伙伴：Music AI Sandbox