fny5jt9 发表于 2024-7-30 19:22:22

Google 推出 AI 视觉语言模型 ScreenAI


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="//q2.itc.cn/q_70/images03/20240522/866519ef8a96458191032ce3dfad1b34.jpeg" style="width: 50%; margin-bottom: 20px;"></p>

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">导读:Google又化身用户体验的游戏规则改变者,ScreenAI。</span></p>

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">Google 在<span style="color: black;">近期</span><span style="color: black;">刚才</span>推出了一项突破性的创新:ScreenAI。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">这项技术足够让人兴奋。正如<span style="color: black;">大众</span>所预想的,这项技术有可能重塑用户体验 (UX) 的<span style="color: black;">将来</span>。以下,将是一个全面的<span style="color: black;">制品</span>与技术概述,它可<span style="color: black;">保证</span>你<span style="color: black;">处在</span>技术领先地位。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">什么是ScreenAI?</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">ScreenAI 不是普通的人工智能。这<span style="color: black;">是由于</span> Google AI 的天才们发明的视觉语言模型 (VLM)。它的与众<span style="color: black;">区别</span>之处,在于它能够理解用户界面 (UI) 和信息图表。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这可能是一个游戏规则的改变者。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这个奇迹<span style="color: black;">不仅</span>是一匹只会一招的小马。它能够执行多种任务,从图形问答到元素注释、摘要、导航和特定于 UI 的 QA。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">大众</span>想象一下,人工智能<span style="color: black;">能够</span>像经验丰富的专业人士<span style="color: black;">同样</span>浏览网站或应用程序,一路回答问题并总结内容。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">它是<span style="color: black;">怎样</span>运作的? </p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">ScreenAI 在<span style="color: black;">经过</span>抓取网络,并自动与应用程序交互生成的屏幕截图数据集上进行了预训练。<span style="color: black;">开发</span>人员<span style="color: black;">运用</span>了几种现成的 AI 模型来生成合成训练数据,<span style="color: black;">包含</span>用于注释屏幕截图的 OCR 和用于生成<span style="color: black;">相关</span>屏幕截图的用户问题的 LLM。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">经过预训练和微调后,结果是一个 50 亿个参数模型,<span style="color: black;">能够</span>回答<span style="color: black;">相关</span> UI 屏幕和信息图表的问题,以及总结或导航屏幕。ScreenAI 在WebSRC和MoTIF基准测试中创造了新的性能记录,并在Chart QA、DocVQA和InfographicVQA基准测试中优于其他类似<span style="color: black;">体积</span>的模型。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">为了<span style="color: black;">帮忙</span>更广泛的<span style="color: black;">科研</span>社区<span style="color: black;">研发</span>和<span style="color: black;">评定</span>类似的模型,Google 发布了三个用于基于屏幕的问答 (QA) 模型的新<span style="color: black;">评定</span>数据集。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Google 这是解释的:</p>

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">虽然<span style="color: black;">咱们</span>的模型是同类中最好的,但<span style="color: black;">咱们</span><span style="color: black;">重视</span>到,在某些任务上,需要进一步<span style="color: black;">科研</span>来缩小与 GPT-4 和 Gemini 等模型的差距,这些模型要大几个数量级。</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">为了鼓励进一步<span style="color: black;">科研</span>,<span style="color: black;">咱们</span>发布了<span style="color: black;">拥有</span>这种统一<span style="color: black;">暗示</span>的数据集,以及其他两个数据集,以便在屏幕<span style="color: black;">关联</span>任务上对模型进行更全面的基准测试。</span></p>

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">ScreenAI 基于 Pathways 语言和图像模型 (PaLI) 架构,该架构将视觉变换器 (ViT) 与编码器-解码器大型语言模型 (LLM)(例如 T5)相结合。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">Google 团队对此<span style="color: black;">基本</span>架构进行了关键修改。<span style="color: black;">因为</span> UI 和信息图表<span style="color: black;">一般</span><span style="color: black;">拥有</span>“<span style="color: black;">各样</span>分辨率和纵横比”,为此<span style="color: black;">她们</span>修改了 ViT 的图像修补<span style="color: black;">过程</span>,以<span style="color: black;">运用</span>Pix2Struct模型中的修补策略。这将<span style="color: black;">准许</span>模型<span style="color: black;">按照</span>输入图像的形状<span style="color: black;">调节</span>补丁网格。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">为了生成预训练数据,<span style="color: black;">科研</span>人员<span style="color: black;">首要</span>创建了一个自动注释管道。该系统在给定屏幕截图图像的<span style="color: black;">状况</span>下,<span style="color: black;">能够</span>检测和<span style="color: black;">归类</span> UI 和信息图表元素,例如图像、象形图、文本和按钮。结果是一个屏幕架构 注释,其中列出了 UI 元素以及指示它们在屏幕内位置的边界框。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;"><span style="color: black;">而后</span>,屏幕模式数据用于生成合成训练数据。该团队将架构<span style="color: black;">供给</span>给法学硕士,并提示告诉法学硕士该架构<span style="color: black;">表率</span>屏幕截图,并<span style="color: black;">需求</span>法学硕士生成人类用户可能会询问的<span style="color: black;">相关</span>屏幕截图的问题。<span style="color: black;">科研</span>人员还让法学硕士生成屏幕截图的摘要。总体而言,<span style="color: black;">最后</span>数据集<span style="color: black;">包括</span>大约 4 亿个样本。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">ScreenAI 的运作就像一个强大的 UI 解释器,以<span style="color: black;">咱们</span>从未想过的方式理解数字世界。它的魔力分两个<span style="color: black;">周期</span>展开:</span></span></p>

    <span style="color: black;"><span style="color: black;">预训练:利用自监督学习,自动生成数据标签,为其理解奠定<span style="color: black;">基本</span>。</span></span>
    <span style="color: black;"><span style="color: black;">微调:在人类评分者<span style="color: black;">供给</span>的手动标记数据的<span style="color: black;">帮忙</span>下,它将其技能完善到完美。</span></span>

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="//q1.itc.cn/q_70/images03/20240522/283381d106e247d2a8cba394041ccf5e.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">让<span style="color: black;">咱们</span>深入<span style="color: black;">科研</span>一下它<span style="color: black;">有些</span>令人“瞠目结舌”的功能:</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">1.屏幕助手</span></strong></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">有人<span style="color: black;">是不是</span><span style="color: black;">期盼</span>有一个人工智能助手来回答<span style="color: black;">相关</span>屏幕截图内容的所有紧迫问题?</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">嗯,有了 ScreenAI,这个梦想就变<span style="color: black;">成为了</span>现实。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="//q7.itc.cn/q_70/images03/20240522/e0985cdf0bb541f3b7c6c321128fb6fc.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">2. 屏幕导航</span></strong></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">需要在屏幕上执行特定操作但不想动一根手指?只需告诉 ScreenAI 你需要什么,<span style="color: black;">而后</span>观看它发挥其魔力。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="//q6.itc.cn/q_70/images03/20240522/95837cd037ab44d4884c94aaa590ca08.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><strong style="color: blue;"><span style="color: black;">3. 屏幕摘要</span></strong></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">煞费苦心地搜索屏幕内容的日子<span style="color: black;">已然</span>一去不复返了。ScreenAI 将其<span style="color: black;">所有</span>压缩成一口<span style="color: black;">体积</span>、易于理解的片段。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="//q4.itc.cn/q_70/images03/20240522/203c9b21e71146879ef8295bce7a8397.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">实验与结果 </p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">如前所述,ScreenAI 经历了两个关键的训练<span style="color: black;">周期</span>:预训练和微调。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在预训练<span style="color: black;">时期</span>,<span style="color: black;">运用</span>自监督<span style="color: black;">设备</span>学习技术生成数据标签,而微调则<span style="color: black;">触及</span><span style="color: black;">运用</span>人类<span style="color: black;">评定</span>者标记的数据来完善模型的技能。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在微调<span style="color: black;">周期</span>,ScreenAI <span style="color: black;">运用</span><span style="color: black;">各样</span>公共 QA、摘要和导航数据集进行测试,涵盖与用户界面 (UI) <span style="color: black;">关联</span>的广泛任务。<span style="color: black;">针对</span>问答 (QA),多模态和文档理解<span style="color: black;">行业</span>的既定基准。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">可<span style="color: black;">做为</span>测试场,<span style="color: black;">包含</span> ChartQA、DocVQA、多页 DocVQA、InfographicVQA、OCR VQA、Web SRC 和 ScreenQA。<span style="color: black;">针对</span>导航任务,采用了 Referenc Expressions、MoTIF、Mug 和 Android in the Wild 等数据集。屏幕摘要<span style="color: black;">运用</span> Screen2Words 进行<span style="color: black;">评定</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">除了这些微调数据集之外,<span style="color: black;">咱们</span>还引入了三个新颖的基准来<span style="color: black;">评定</span>微调的 ScreenAI 模型:</p>

    <span style="color: black;"><span style="color: black;">屏幕注释:此基准测试<span style="color: black;">评定</span>模型注释布局和理解屏幕内空间关系的能力。</span></span>
    <span style="color: black;"><span style="color: black;">ScreenQA Short:ScreenQA 的变体,该基准测试的特点是缩短了真实答案,与其他 QA 任务更加紧密地结合在<span style="color: black;">一块</span>。</span></span>
    <span style="color: black;"><span style="color: black;"><span style="color: black;">繁杂</span>的 ScreenQA:此基准测试<span style="color: black;">包含</span>更具挑战性的问题,例如<span style="color: black;">触及</span>计数、算术、比较和不可回答的<span style="color: black;">查找</span>的问题。它还<span style="color: black;">包含</span><span style="color: black;">拥有</span><span style="color: black;">各样</span>长宽比的屏幕,以测试模型的多功能性。</span></span>

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">经过微调的 ScreenAI 模型<span style="color: black;">无</span>让人失望。它在<span style="color: black;">各样</span> UI 和基于信息图表的任务(<span style="color: black;">包含</span> WebSRC 和 MoTIF)中实现了最先进的结果。<span style="color: black;">另外</span>,与类似<span style="color: black;">体积</span>的模型相比,它在 Chart QA、DocVQA 和 InfographicVQA 上表现出一流的性能。ScreenAI 还在 Screen2Words 和 OCR-VQA 上展示了<span style="color: black;">拥有</span>竞争力的性能。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">这些结果强调了 ScreenAI 在应对<span style="color: black;">各样</span> UI <span style="color: black;">关联</span>挑战方面的功效和多功能性。<span style="color: black;">另外</span>,新基准数据集的引入为<span style="color: black;">将来</span>的<span style="color: black;">科研</span>奠定了基线,为该<span style="color: black;">行业</span>的进一步发展铺平了道路。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">在 ScreenAI 的引领下,<span style="color: black;">经过</span>人工智能驱动的创新来<span style="color: black;">加强</span>用户体验的可能性将是无限的。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="//q3.itc.cn/q_70/images03/20240522/74d174a766d4408ab63c5548c185102c.jpeg" style="width: 50%; margin-bottom: 20px;"></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;"><span style="color: black;">日前</span>,Google 尚未发布模型代码或权重,但<span style="color: black;">她们</span>已在 GitHub 上开源了<span style="color: black;">评定</span>数据集ScreenQA和Screen Annotation 。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">结论:下一步是什么?</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;"><span style="color: black;">此刻</span>,你可能<span style="color: black;">巴望</span><span style="color: black;">把握</span> ScreenAI 并彻底改变你的 UX 游戏。但别着急——黄金时段还<span style="color: black;">无</span>完全准备好。到<span style="color: black;">日前</span>为止,它仍然是谷歌策划者手中的一个尖端<span style="color: black;">科研</span>项目。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">但不要害怕,<span style="color: black;">由于</span><span style="color: black;">将来</span>看起来是光明的。在谷歌的引领下,ScreenAI 从一个诱人的概念转变为现实世界的游戏规则改变者只是时间问题。</span></span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;"><span style="color: black;">因此</span>请继续关注,小伙伴们。ScreenAI 的时代<span style="color: black;">已然</span>来临,这将是一场新的革命。</span></span></p>

    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">关联</span>参考:</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">https://github.com/google-research-datasets/screen_qa</span></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">https://github.com/google-research-datasets/screen_annotation<a style="color: black;"><span style="color: black;">返回<span style="color: black;">外链论坛:www.fok120.com</span>,查看<span style="color: black;">更加多</span></span></a></p>


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">责任编辑:网友投稿</span></p>




流星的美 发表于 2024-8-21 07:32:55

期待楼主的下一次分享!”

飘雨的姑娘 发表于 2024-9-5 15:04:21

“NB”(牛×的缩写,表示叹为观止)‌
页: [1]
查看完整版本: Google 推出 AI 视觉语言模型 ScreenAI