您的当前位置:首页 >张世 >蘋果推 ILuvUI 模型,使 AI 理解行動應用介面 正文
时间:2025-11-14 16:02:00 来源:网络整理编辑:张世
采用先进多Agent架构,整合传统六爻智慧与现代AI技术, 提供智能化知识检索、专业占卜解析与深度理解能力。 让古老的六爻文化在AI时代焕发新的活力。
蘋果與芬蘭阿爾托大學合作,推出 ILuvUI 視覺語言模型,旨在理解行動應用程式介面。核心在教導人工智慧(AI)模型如何像人類推理用戶介面,不僅需要視覺訊息,還包括語義理解。
ILuvUI論文指出,理解和自動化用戶介面操作是一項挑戰,因介面元素如列表項、複選框和文本框包含訊息層次遠超過互動性。雖然大型語言模型(LLMs)自然語言任務表現出色,但僅依賴文本描述理解用戶介面,卻忽略豐富視覺訊息。
多數視覺語言模型主要用自然圖像訓練,如狗貓或街道號誌,因此解釋結構化環境(如應用程式介面)時表現不佳。研究員強調,將視覺訊息與文本訊息融合理解用戶介面至關重要,因反映人類與世界互動的方式。為了克服挑戰,團隊微調開源視覺語言模型LLaVA,並調整訓練法以專注用戶介面。他們使用合成生成文本─圖像訓練,最終資料庫包括問答式互動、詳細螢幕描述、預測操作結果,甚至是多步驟計畫。
訓練後ILuvUI機器基準測試和人類偏好測試均超越原始LLaVA模型。更重要的是,ILuvUI不需要用戶指定介面的特定區域,能從簡單提示理解整個螢幕上下文,使其能執行視覺問答等應用。蘋果研究員表示,可能對無障礙設計和自動化用戶介面測試有重要意義。將來研究可能涉及更大圖像編碼器、更佳解析度處理,以及與現有用戶介面框架(如JSON)無縫協作的輸出格式。
蘋果也發表另一項研究,質疑大型語言模型推理力,指出AI「推理」主要依賴複雜模式匹配,而非真正認知推理。這些模型處理簡單問題時可能太複雜,更複雜問題就表現不佳。這觀點引發對AI本質的辯論,並更謹慎和明智部署技術。
(首圖來源:Flickr/MIKI Yoshihito CC BY 2.0)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認河北省邯郸市以“双随机”监管大力推动涉企行政执法“综合查一次”2025-11-14 16:14
江西九江:全力守护农村市场秩序,专项整治在行动!2025-11-14 15:58
多国人士:期待上合天津峰会推动构建更加紧密命运共同体2025-11-14 15:45
福建厦门质检院牵头NQI集成服务基地试点项目获批2025-11-14 15:32
有效畅通“大循环”,建设统一大市场(人民观点)2025-11-14 15:05
广东省佛山市开展市场监管领域节前安全检查2025-11-14 14:27
深圳“灵渠”计划取得初步成果2025-11-14 14:09
学习时节|铭记历史启示,总书记关心抗战遗址保护2025-11-14 14:04
安徽广德市“全链条服务”护航知识产权“加速度”2025-11-14 14:02
土楼景区“热”起来——福建漳州南靖县市场监管局培育“诚信景区”见闻2025-11-14 13:59
给衣服上锁,商家出大招?2025-11-14 15:40
交通枢纽向“经济枢纽”跃升 三个关键字带你读懂河南如何挑大梁2025-11-14 15:34
特朗普赦免75名支持者2025-11-14 15:11
海河之滨聚首,上合再启新程(国际论道)2025-11-14 14:36
俄外长:美方尚未回应俄方的军控提议2025-11-14 14:28
广州市市场监管局:“斤斤计较”,为春节保“价”护航2025-11-14 14:23
事关“北溪”爆炸幕后黑手,美媒爆出猛料2025-11-14 13:56
辽宁沈阳推出3项新举措促进经营主体质升量增2025-11-14 13:54
特朗普赦免75名支持者2025-11-14 13:49
贵州石阡县市场监管局推进基层分局“两化”建设出真招见成效2025-11-14 13:48