2024 Google I/O大会放出AI大招 – 招招要友商的”命”

在谷歌年度开发者大会I/O的尾声,公司CEO桑达尔·皮查伊透露,会议期间谷歌提及了“AI”一词高达121次。这几乎成了两小时主题演讲的核心——将AI技术融入到全球超过二十亿用户所使用的每一个谷歌应用和服务中。

Google I/O

下面6个方面是这次发布会的主要内容:

一、Gemini 1.5 Flash和Gemini 1.5 Pro的更新

谷歌宣布了一个全新的AI模型,名为Gemini 1.5 Flash,该模型在速度和效率上进行了优化。Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之间,后者是谷歌最小的模型,可以在设备上本地运行。谷歌表示,开发Flash的原因是开发者们需要一个比Gemini Pro更轻便、成本更低的模型来构建AI驱动的应用和服务,同时保留一些Gemini Pro的长处,如拥有一百万代币的长时间窗口。今年晚些时候,谷歌计划将Gemini的上下文窗口扩大到两百万个代币,这将使其能够同时处理两小时的视频、22小时的音频、超过60,000行的代码或超过140万个单词。

Gemini 1.5

二、Project Astra

谷歌展示了Project Astra,这是一个由AI驱动的AI代理的早期版本,由谷歌DeepMind的CEO德米斯·哈萨比斯描述为“在日常生活中可以提供帮助”。谷歌发布了一段视频,展示了一个Astra用户在谷歌伦敦办公室中走动,举起手机并将相机对准不同的物体——一个扬声器、白板上的一些代码、一个窗户——并与应用程序进行自然的对话。视频中最令人印象深刻的是,该应用程序准确地告诉用户她把眼镜放在哪里,尽管用户从未提及眼镜。

file

三、Ask Google Photos

借助AI,谷歌正在将Google Photos的图像或视频搜索功能提升到一个新的水平。如果你是美国的Google One订阅者,你将能够向Google Photos提出复杂的问题,比如“显示我访问过的每个国家公园的最佳照片”,当该功能在未来几个月推出时。Google Photos将利用GPS信息以及自身的智能为你提供选项。此外,你还可以要求Google Photos生成带有标题的照片,方便在社交媒体上分享。

file

四、Veo和Imagen 3

谷歌的新AI驱动的媒体创作引擎名为Veo和Imagen 3。Veo是谷歌对OpenAI的Sora的回应,能够生成“高质量”的1080p视频,持续时间超过一分钟,并且能理解电影概念,如缩时摄影。Imagen 3是一个文本到图像的生成器,谷歌声称它比前一版本Imagen 2在处理文本方面更出色。这使得Imagen 3成为公司最高质量的文本到图像模型,具有“惊人的细节水平”和“逼真的、生动的图像”,同时减少了人工痕迹,这似乎是对OpenAI的DALLE-3的挑战。

file

五、Google Search的重大更新

谷歌正在对Search的基本工作方式进行重大改变。今天宣布的大部分更新,如询问非常复杂的问题并使用搜索来计划饮食和假期,只有加入Search Labs——谷歌的实验平台——的用户才能尝试这些实验性特性。但谷歌正在测试的一个重要新功能是AI Overviews,一年后,它将开始向美国的数百万用户推出。谷歌搜索现在将以默认方式在结果上方展示AI生成的答案,公司表示,计划在今年年底之前将这一特性推广到全球超过十亿的用户。

file

六、Gemini on Android

谷歌正在将Gemini直接整合到Android系统中。当Android 15在今年晚些时候发布时,Gemini将能够感知你正在运行的应用、图片或视频,并允许你将其作为图层召回,提出具有上下文特定性的问题。这将对已经具备这一功能的Google Assistant产生何种影响?目前尚不明确。在今天的演讲中,谷歌并未提及此事。

file

除此之外,谷歌还宣布了许多其他更新。谷歌表示,将为AI生成的视频和文字添加数字水印,使Gemini在Gmail和Docs的侧边栏中可用,为工作区的虚拟AI助手提供动力,在通话中监听并检测你是否正在实时遭受诈骗,等等。

SSH频繁掉线如何解决?
OpenAI发布了GPT-4o,这是一个更快的模型,对所有ChatGPT用户免费
标签:

发表我的评论

电子邮件地址不会被公开。 必填项已用*标注

72 + 20 =

ajax-loader