关键字:1. 谷歌 (Google) 2. ScreenAI 3. 视觉语言模型 (VLM) 4. 用户界面 (UI) 5. 自我监督学习 6. 微调 7. 图形问答 8. 屏幕导航 9. 屏幕摘要 10. 人工智能 (AI)
谷歌最近推出了一款名为ScreenAI的视觉语言模型(VLM),这是一项令人瞩目的技术进步。
ScreenAI专门设计用于理解和解释用户界面(UI)以及信息图表,其能力非常强大,能够执行多种与UI相关的任务,
如图形问答、元素注释、摘要、导航以及特定于UI的问题回答等。
ScreenAI的工作分为两个阶段。首先是预训练阶段,它通过自我监督学习自动生成数据标签,这一过程不依赖于外部的标注信息,
而是通过模型自身的学习能力来理解和识别数据。其次是微调阶段,这一阶段使用人工评分者手动标记的数据来进一步提升模型的性能和准确性。
ScreenAI的具体功能包括:
1. 问答模型:能够回答与屏幕截图内容相关的问题,这使得用户可以通过自然语言与界面进行交互,获取所需信息。
2. 屏幕导航:模型能够将自然语言指令转换为屏幕上的可执行动作,例如,用户可以通过说出“单击搜索按钮”这样的指令来操作屏幕。
3. 屏幕摘要:模型能够用简短的一两句话来总结屏幕内容,帮助用户快速把握界面的核心信息。
这项技术的推出,不仅展示了谷歌在人工智能领域的深厚实力,也为未来的用户界面设计和交互提供了新的可能性。
通过ScreenAI,用户与电子设备之间的交互将变得更加自然和高效,同时也为视觉语言模型的发展开辟了新的道路。

