本周AI界发生了什么 | Grok-1.5发布；微软OpenAI斥资千亿打造AI超算；百度或将为国行iPhone16提供AI功能古力娜扎生图

zhiyongz 2年前 (2024-04-01) 阅读数 259 #苹果

文｜陈斯达

编辑｜邓咏仪

一周纵览

本周大模型频频出新。马斯克官宣Grok-1.5大模型，推理能力大升级。人工智能公司Databricks宣布开源通用混合专家（MoE）大语言模型DBRX，最强开源大模型就此易主。以色列AI初创公司AI21 Labs推出SSM-Transformer模型Jamba，据称是世界上首个基于Mamba的量产级模型。

更多消息依然来自OpenAI。OpenAI本周新发布了语音生成模型Voice Engine，以及艺术家的Sora最新作品实例。围绕GPT商店困境，本周OpenAI宣布，将挑选少量美国开发者测试GPT商店收入分成模式。周末又有消息称，微软OpenAI将斥资千亿美元打造“Stargate”先进人工智能超级计算机。

其他科技巨头动作不断。亚马逊宣布将向Anthropic追加投资 27.5 亿美元，以完成去年承诺的投资协议。而包括高通、谷歌和英特尔在内的科技公司联盟，则准备从软件入手，与英伟达芯片“脱钩”。

Key PointsOpenAI发布语音模型Voice Engine马斯克官宣Grok-1.5DBRX成当前最强大开源模型AI21 Labs首推基于Mamba架构的量产级模型微软和OpenAI制定千亿美金AI超算计划OpenAI与开发者联合测试GPT创收OpenAI发布Sora首批艺术家作品实例高通、谷歌、英特尔等联合开发AI软件Transformer作者公开承认参与保密项目Q*百度或为国行iPhone16提供AI功能字节跳动推出AI角色互动App“话炉”亚马逊追投Anthropic 27.5亿美元AI视频生成创企HeyGen正进行6000万美元融资90后天才少年稚晖君再获融资Heygen发布Avatar in Motion 1.0腾讯开源“照片说话”视频生成框架谷歌推出AI图像插入新“神器”大模型第一线OpenAI发布语音模型Voice Engine

据界面新闻，3月30日，OpenAI在官网上公开了其最新的研究成果——“Voice Engine”。这项技术可通过简短的15秒音频样本和文本输入，生成与原始说话者极为相似的自然语音。

公告中，OpenAI给出了Voice Engine的一些早期应用场景。如通过自然、富有情感的声音辅助儿童阅读、翻译视频和播客等内容、改善偏远地区的社区服务、帮助患有突发性或退化性言语病症的患者恢复声音等。

马斯克官宣Grok-1.5

当地时间 3 月 28 日，马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。相比一周前开源的Grok-1.0，Grok-1.5上下文长度飙升，从8192增长到128k，和GPT-4齐平。二是推理性能大幅提升，数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4。Grok-1.5预计将在未来几天向早期测试者和 X 平台的现有用户开放。

本周AI界发生了什么 | Grok-1.5发布；微软OpenAI斥资千亿打造AI超算；百度或将为国行iPhone16提供AI功能古力娜扎生图第1张

图源：X

DBRX成当前最强大开源模型

当地时间3月27日，AI初创公司Databricks宣布旗下Mosaic Research团队开发的通用大语言模型DBRX将开源。DBRX的表现都优于现有的一切开源模型。根据DBRX在MMLU、HumanEval和 GSM8K公布的测试数据显示，DBRX不仅性能超过了LLaMA2-70B和马斯克最近开源的Grok-1，推理效率比LLaMA2-70B快2倍，总参数却只有Grok-1的三分之一，是一款功能强算力消耗低的大模型。

AI21 Labs首推基于Mamba架构的量产级模型

智东西3月29日消息，以色列AI初创公司AI21 Labs昨日在官网推出SSM-Transformer模型Jamba，据称是世界上第一个基于Mamba的量产级模型。通过利用传统Transformer架构的元素增强Mamba结构化状态空间模型，Jamba弥补了纯SSM模型的固有局限性。它提供了256k上下文窗口，在吞吐量和效率方面展现了显著的进步。

大事件微软和OpenAI制定千亿美金AI超算计划

3月30日消息，据The Information独家报道，消息人士称，微软和OpenAI的高管们在为一个可能花费高达1000亿美元的数据中心项目制定计划。该项目将包含1台拥有数百万个专用服务器芯片的AI超级计算机Stargate，为OpenAI的AI提供动力。项目成本是当今一些最大的数据中心的100倍，微软可能会负责为该项目提供资金。高管们已经讨论了最快在2028年启动Stargate，并将其扩建至2030年。

OpenAI与开发者联合测试GPT创收

3月28日消息，根据X平台，OpenAI宣布其正与一小部分美国开发者合作，测试基于使用量的GPT收费。OpenAI表示：“我们的目标是创建一个充满活力的生态系统，让开发者因其创造力和影响力而获得奖励，我们期待与建设者合作，找到实现这一目标的最佳方法。”

本周AI界发生了什么 | Grok-1.5发布；微软OpenAI斥资千亿打造AI超算；百度或将为国行iPhone16提供AI功能古力娜扎生图第2张

胆小者勿入！五四三二一...恐怖的躲猫猫游戏现在开始！

图源：X

OpenAI发布Sora首批艺术家作品实例

3月26日凌晨，OpenAI 发布七个最新 Sora 作品实例，意在展示艺术家、设计师、创意工作者和电影人等业内人士对于 Sora 融入自身工作与业务的看法。

高通、谷歌、英特尔等联合开发AI软件

3月26日，由高通、谷歌、英特尔等科技巨头联合参与的UXL基金会宣布，将启动一项开源软件开发计划，旨在为多种AI加速器芯片提供跨平台支持。该项目旨在实现计算机代码在不同芯片和硬件平台上的无缝运行。高通AI与机器学习主管Vinesh Sukumar表示，此举将帮助开发者从英伟达平台顺利迁移。

Transformer作者公开承认参与保密项目Q*

据Wired杂志，Transformer作者现身英伟达GTC大会后，接受Wired杂志采访，揭示了许多鲜为人知的研发细节。其中一位作者Lukasz Kaiser公开承认自己参与了OpenAI的一项高度保密项目——Q，引发了广泛关注。当记者试图进一步探究Q项目时，OpenAI的公关人员迅速介入，阻止了Kaiser的发言。

百度或为国行iPhone16提供AI功能

3月25日，一位百度内部人士向时代周报记者透露，百度将为苹果今年即将发布的iPhone16、Mac系统和ios18提供AI功能。但《中国日报》后援引接近苹果公司的知情人士称，到目前为止，苹果尚未与百度就AI合作达成协议。

字节跳动推出AI角色互动App“话炉”

据新浪科技，3月25日下午消息，近日，字节跳动推出AI角色互动App“话炉”。据了解，“话炉”由字节跳动的Flow部门打造。而Flow部门隶属于字节跳动的产品研发与工程部（内部简称“PDI”），目前下设四大业务线，包括AI教育、国际化、社区和豆包，“话炉”则属于社区业务线旗下。

融资动态亚马逊追投Anthropic 27.5亿美元

当地时间 3 月 27 日，亚马逊宣布将向 AI 公司 Anthropic 追加投资 27.5 亿美元（约 198.8 亿人民币），以完成去年承诺的投资协议，并将扩大两家公司之间的合作关系。追加投资之后，亚马逊对 Anthropic 的总投资额将达到 40 亿美元，这也是亚马逊 30 年历史上最大的一笔外部投资。通过投资，亚马逊将获取 Anthropic 的少数股份，但不会在 Anthropic 的董事会占有席位。

AI视频生成创企HeyGen正进行6000万美元融资

当地时间3月23日，据The Information援引知情人士消息，HeyGen目前正在进行一轮 6000 万美元的融资，完成融资后总估值将达到 4.4 亿美元，是四个月前估值的六倍，本轮融资由Benchmark领投，它是 Snap 和 Uber 的早期投资者之一。HeyGen 的上一轮融资则是去年 11 月的560万美元融资，由知名投资人Sarah Guo创立的Conviction Partners领投。

90后天才少年稚晖君再获融资

据投资界，智元机器人关联公司上海智元新创技术有限公司新增股东红杉中国、M31资本、上汽投资。此前消息流出，智元机器人投前估值达70亿。公司背后的90后创始人曾是华为“天才少年”稚晖君彭志辉，同时在B站坐拥250万粉丝。公开资料显示，上海智元新创技术有限公司法定代表人为舒远春，使命为“以智能机器创造无限生产力”，致力于以Al+机器人的融合创新，打造世界级领先的具身智能机器人产品及应用生态。

新玩意Heygen发布Avatar in Motion 1.0

Heygen近期发布了其Avatar in Motion1.0新功能，这一技术革新在虚拟角色动作捕捉和声音克隆方面取得了重大突破。该功能可以精确地保持口型同步，并克隆用户的语音语调，甚至能保留背景声，使得虚拟角色的语音表达更为生动真实。

本周AI界发生了什么 | Grok-1.5发布；微软OpenAI斥资千亿打造AI超算；百度或将为国行iPhone16提供AI功能古力娜扎生图第3张

功能演示，图源：X

产品入口：

https://top.aibase.com/tool/heygen

论文腾讯开源“照片说话”视频生成框架

智东西3月28日消息，根据arXiv，腾讯团队在3月26日发表的论文中开源了音频和照片驱动的视频生成框架AniPortrait。该方法分为两个阶段，最初，团队从音频中提取3D中间表示并将其投影到一系列2D面部标识中。随后，团队采用鲁棒的扩散模型，结合运动模块，将标识序列转换为逼真且时间一致的肖像动画。实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面表现优异，从而增强了感知体验。