被OpenAI抢先一天后,科技巨头谷歌不甘示弱,推出了自己的最新多模态AI(人工智能)制品。
当地时间5月14日,在谷歌I/O研发者大会上的主题演讲中,谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片。按照发布会最后的官方统计,完全聚焦于AI的这场主题演讲总共说到了121次AI。
完全聚焦于AI的这场主题演讲总共说到了121次AI。 源自:谷歌I/O主题演讲
谷歌CEO桑达尔·皮查伊(Sundar Pichai)暗示,谷歌的所有工作都在围绕生成式AI模型Gemini展开,“咱们期盼每一个人都能从Gemini所做的事情中受益”。
14日当天,谷歌(Nasdaq:GOOGL)股价收于每股171.93美元,涨0.6%,总市值2.12万亿美元。
AI搜索支持视频输入,Gemini、Gemma上新
做为搜索引擎巨头,AI搜索正是谷歌所做工作中的一部分。
据介绍,在最新Gemini的加持下,谷歌搜索将具备多过程推理能力,能够一次性处理带有多个限制要求的长问题、帮忙用户进行头脑风暴,并支持视频搜索,让用户经过拍摄视频来搜索处理方法。这些功能将先在美国推出,谷歌预计会在今年年底前将其带给超过10亿人。
谷歌AI搜索将具备多过程推理能力。源自:谷歌
谷歌的Gemini以超长的上下文窗口而出名。在大会上,谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力,为其推出一系列更新。谷歌将向全世界150多个国家地区的Gemini Advanced订阅者供给最新模型、持有100万个token的Gemini 1.5 Pro,支持超过35种语言,定价为每100万token 3.5美元。
据皮查伊介绍,Gemini 1.5会供给“迄今为止所有基本模型中最长的上下文窗口”。Gemini 1.5 Pro将在今年晚些时候将会把窗口进一步扩大至200万token,拓展同步处理多模态信息的边界。
从今年夏天起始,Gemini将支持语音实时交互,并在今年晚些时候上线实时视频交互。将来几个月内,谷歌亦将推出类似于GPTs的自定义AI助手功能,名为Gems,能够与整套“谷歌整家桶”联动。
另一,针对有些需要快速响应的场景,谷歌推出了Gemini 1.5 Flash模型。Flash将是API中速度最快的Gemini模型,针对大规模、大批量的高配任务进行了优化,亦拥有100万token的长上下文窗口。
谷歌亦在发布会上带来了旗下开源大模型Gemma的最新版本Gemma 2。据介绍,Gemma 2采用全新架构,参数上达到27B,持有突破性的性能和效率。
AI助手Project Astra叫板GPT-4o
在OpenAI推出能够实现人类级别响应的智能助手GPT-4o后,谷歌的AI智能体项目Project Astra亦重磅登场。
在演示视频中,Astra能够经过手机摄像头或智能眼镜看到的内容来分析响应语音命令。它成功地识别出代码序列、为电路图提出改进意见、能够经过镜头“看到”伦敦国王十字区,并提醒用户智能眼镜的安置位置。
Project Astra是谷歌针对将来AI助手的展望。源自:谷歌
谷歌AI助手将能够经过智能眼镜和用户一块观察世界。源自:谷歌
据介绍,谷歌在Gemini的基本上研发了Astra的原型,能够经过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。经过语音模型,谷歌亦强化了智能助手的说话能力,让其能够给出更快速的回复。
不外,在演示视频中,谷歌AI助手的回复速度似乎还是会比GPT-4o稍慢有些,语音所表现出的感情色彩亦平淡有些。
皮查伊暗示,谷歌计划从今年起始将Astra的功能添加到其Gemini应用程序及其制品中。不外,他亦强调,虽然最后目的是“让Astra在机构的软件中实现无缝连接”,但该制品将被小心推出,并且“商场化之路将由质量驱动”。
除了在AI助手行业的竞争外,谷歌还经过文生视频模型Veo来反击OpenAI的Sora。Veo能够按照文字、照片和视频的提示来生成高质量的1080p视频,创作“一致且连贯”的镜头,用户能够对光照、镜头语言、视频颜色风格等进行自定义设置。不外,谷歌无宣布Veo的详细推出时间。
源自:谷歌I/O主题演讲
另外,谷歌还宣布了一系列与图像、音乐相关的生成式AI工具,包含能够表现更高细节水平的文生图工具Imagen 3,还有与Youtube以及音乐家合作的AI音乐工具“AI音乐沙盒”。
在硬件方面,谷歌将于今年晚些时候推出交付第六代数据中心AI芯片TPU Trillium。皮查伊暗示,每块芯片的计算性能将比第五代提高4.7倍,谷歌经过扩大芯片的矩阵乘法单元(MXU)和加强整体时钟速度来实现这一目的。另外,第六代将比第五代芯片节能67%,谷歌还将Trillium芯片的内存带宽加强了一倍。
发布会后,著名AI学者吴恩达(Andrew Ng)对谷歌暗示祝贺,叫作个人很期待“持有200万个token的上下文窗口以及对设备上AI进行更好支持的Gemini”,认为其会为应用程序构建者带来新的机会。
英伟达高级科研专家范麟熙(Jim Fan)暗示:“谷歌正在做的一件事是正确的:她们最终在认真将AI整合到搜索中......谷歌最强大的护城河是分销。Gemini不必定要作为最好的模型,而是能够作为世界上最常用的模型。”
此前,在5月9日播出的一档节目中,谷歌CEO桑达尔·皮查伊接受采访时谈及机构与微软和OpenAI的竞争。他暗示,尽管谷歌在聊天设备人行业的起步较晚,但他对机构的长时间竞争力并不担忧,AI浪潮尚处初期。
4月25日,谷歌母机构Alphabet发布了截止3月31日的2024年第1季度财报。财报表示,Alphabet第1季度实现营收805.39亿美元,同比增长15%,是自2022年初败兴机构营收增长最快的一个季度。非美国通用会计准则下(Non-GAAP)净利润为236.62亿美元,同比增长57%;摊薄后每股收益为1.89美元,高于市场预期的1.51美元。
|