IT之家 2 月 21 日报道,苹果研究团队在最新文章中发布并演示了最终的 Ferret-UI Lite AI 模型。尽管它只有 30 亿(3B)个参数,但其性能等于或超过了 24 倍大的大型模型。 IT之家注:Ferret-UI Lite 是专为移动设备构建的大规模多模态语言模型(MLLM)。参数数量只有三十亿(3B)。这是一种典型的“轻量级”模型,可以在计算能力有限的情况下准确理解手机上复杂的图形用户界面(UI)并与之交互。然而,在多个基准测试中,Ferret-UI Lite 不仅匹配而且优于大型服务器端模型,参数数量高达 24 倍。从核心技术来看,手机屏幕上的小图标和文字往往很难在典型的大机型上看到,但Ferret-UI Lite通过引入“推理切片”技术解决了这个问题。当一个模组el执行任务时,首先会进行粗略的预测,然后智能地“裁剪”并放大相关区域,就像人眼放大查看细节并再次准确识别一样。这种策略允许较小的模型捕获重要的界面信息,而无需处理大量图像数据,从而可以更深入地理解屏幕元素。在训练方面,研究团队构建了合成数据生成系统,解决缺乏高质量训练数据的问题。该系统包括“任务生成器”、“计划者”、“执行者”和“批评者”四个角色,让AI能够在模拟环境中不断测试操作,犯错并纠正。这种机制不仅可以生成大量的训练样本,还可以让模型学习处理现实操作中的错误和意外情况,例如点击无响应或干扰弹出窗口。所以效果要好很多han 仅依赖于手动注释的干净数据。测试结果表明,该模型在短流程中执行基本 UI 操作时表现良好,但在处理复杂的多步骤任务时仍有改进的空间。最重要的是,Ferret-UI Lite 可以完全在本地运行,无需将屏幕截图上传到云服务器。这使得手机能够“自动与应用程序交互”,同时最大限度地维护用户隐私。 IT主页附参考地址
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号社交媒体平台用户上传并发布。我们仅提供信息存储服务。