屏幕用户界面(UI)和信息图表,例如图表、图解和表格,在人类沟通和人机交互中发挥着重要功效,由于它们促进了丰富和互动的用户体验。用户界面和信息图表共享类似的设计原则和视觉语言(例如,图标和布局),这供给了创立单一模型的机会,该模型能够理解、推理并与这些界面交互。然而,因为它们的繁杂性和多样的呈现格式,信息图表和用户界面呈现了一个独特的建模挑战。
为了应对这一挑战,科研者们介绍了“ScreenAI:一个用于用户界面和信息图表理解的视觉-语言模型”。ScreenAI在PaLI架构的基本上进行了改进,采用了pix2struct中引入的灵活打补丁策略。科研者们在包含一项新颖的屏幕注释任务在内的独特数据集和任务组合上训练了ScreenAI,该任务需求模型识别屏幕上的用户界面元素信息(即,类型、位置和描述)。这些文本注释为大型语言模型(LLMs)供给了屏幕描述,使它们能够自动生成问答(QA)、用户界面导航和摘要训练数据集。
仅在5亿参数的状况下,ScreenAI就在基于用户界面和信息图表的任务(WebSRC和MoTIF)上达到了最先进的结果,并且在与类似体积的模型相比,在Chart QA、DocVQA和InfographicVQA上表现最佳。科研者们还发布了三个新的数据集:Screen Annotation,用于评定模型的布局理解能力,以及ScreenQA Short和Complex ScreenQA,用于更全面地评定其问答能力。
ScreenAI的架构基于PaLI,包括一个多模态编码器块和一个自回归解码器。PaLI编码器运用视觉变换器(ViT)创建图像嵌入,并且多模态编码器将图像和文本嵌入的连接做为输入。这种灵活的架构使ScreenAI能够处理能够重新构想为文本加图像到文本问题的视觉任务。
在PaLI架构之上,科研者们采用了pix2struct中引入的灵活打补丁策略。不运用固定的网格模式,而是选取网格尺寸以保存输入图像的原生宽高比。这使ScreenAI能够很好地适应各样宽高比的图像。
ScreenAI模型在两个周期进行训练:预训练周期和微调周期。首要,自监督学习被应用于自动生成数据标签,然后运用这些标签来训练视觉变换器和语言模型。在微调周期,视觉变换器被冻结,大都数运用的数据是由于人类评定员手动标记的。
为了为ScreenAI创建一个预训练数据集,科研者们首要编译了来自各样设备(包含桌面、移动和平板电脑)的海量屏幕截图。这是经过运用公开可拜访的网页和遵循用于移动应用的RICO数据集的程序化探索办法来实现的。而后她们应用一个基于DETR模型的布局注释器,它能识别和标记广泛的用户界面元素(例如图像、图示、按钮、文本)及其空间关系。图示进一步运用一个能够区分77种区别图标类型的图标归类器进行分析。这种仔细的归类针对解释经过图标传达的细微X息至关重要。针对未被归类器覆盖的图标,以及信息图表和图像,科研者们运用PaLI图像标题生成模型来生成描述性标题,供给上下文信息。她们还应用光学字符识别(OCR)引擎来提取和注释屏幕上的文本内容。科研者们将OCR文本与前述注释结合起来,创建了每一个屏幕的仔细描述。
经过运用PaLM 2加强预训练数据的多样性,科研者们在两步过程中生成输入-输出对。首要,使用以上技术生成屏幕注释,而后她们围绕这个架构为大型语言模型创建一个提示,以生成合成数据。这个过程需要提示工程和迭代细化来找到有效的提示。科研者们经过人类验证对生成数据的质量进行评定,以达到一个质量阈值。
ScreenAI在两个周期进行训练:预训练和微调。预训练数据标签是经过自监督学习得到的,而微调数据标签来自人类评定员。 You only speak JSON. Do not write text that isn’t JSON.
You are given the following mobile screenshot, described in words. Can you generate 5questions regarding thecontent of the screenshot as well as the corresponding short answers to them?
The answer should be as short as possible, containing onlythe necessary information. Your answer should be structuredas follows:
questions: [
{{question: the question,
answer: the answer
}},
...
]
{THE SCREENSCHEMA}科研者们运用公开的问答、摘要和导航数据集对ScreenAI进行微调,并运用与用户界面关联的多种任务。针对问答,她们运用多模态和文档理解行业中创立良好的基准,如ChartQA、DocVQA、多页DocVQA、InfographicVQA、OCR VQA、Web SRC和ScreenQA。针对导航,运用的数据集包含Referring Expressions、MoTIF、Mug和Android in the Wild。最后,她们运用Screen2Words进行屏幕摘要,运用Widget Captioning描述特定用户界面元素。除了微调数据集,科研者们还使用三个新的基准测试来评定微调后的ScreenAI模型:
– Screen Annotation:用于评定模型的布局注释和空间理解能力。
– ScreenQA Short:ScreenQA的一个变体,其真实答案已缩短,仅包括与其他问答任务更一致的关联信息。 – Complex ScreenQA:与ScreenQA Short相辅相成,包括更难的问题(计数、算术、比较和没法回答的问题),并包括拥有各样宽高比的屏幕。
微调后的ScreenAI模型在各样基于用户界面和信息图表的任务(WebSRC和MoTIF)上达到了最先进的结果,并且与类似体积的模型相比,在Chart QA、DocVQA和InfographicVQA上表现最佳。ScreenAI在Screen2Words和OCR-VQA上亦表现出竞争力。另外,科研者们还报告了在新引入的基准数据集上的结果,做为进一步科研的基线。
科研者们介绍了ScreenAI模型以及一个统一的暗示,使她们能够研发利用所有这些行业数据的自监督学习任务。她们还展示了运用大型语言模型进行数据生成的影响,并探讨了经过修改训练混合来加强模型在特定方面的表现。她们将所有这些技术应用于构建多任务训练模型,与公开基准上的最先进办法相比,这些模型表现出竞争力。然而,科研者们亦
重视到,尽管她们的办法与公开基准上的最先进办法相比表示出竞争力,但与大型模型相比仍有差距。她们强调,需要进一步的科研来弥合这一差距,并探索新的策略和技术以提高模型性能。
科研者们的工作不仅展示了ScreenAI模型在用户界面和信息图表理解方面的潜能,况且还为将来的科研供给了一个坚实的基本。经过发布新的数据集和展示经过大型语言模型生成数据的能力,她们为处理繁杂的人机交互问题开辟了新途径。
另外,ScreenAI模型的研发揭示了跨行业融合的重要性,即将计算机视觉、自然语言处理和人机交互的最新发展结合起来,以处理长时间存在的挑战。这种跨学科的办法不仅促进了技术进步,亦为科研社区供给了丰富的资源,包含数据集、模型架构和训练策略,这些都是推动将来创新的关键原因。
总之,ScreenAI项目的志着在理解和互动与日益繁杂的数字界面方面的重要一步。随着技术的持续进步,期待将来的科研能够继续探索这一行业的潜能,解锁更加多的应用场景,从而更好地服务于人类与设备的交互。
|