您的位置: 首頁 >互聯(lián)網(wǎng) >

如何使用AI將自然語言說明植根于智能手機應(yīng)用程序操作

2020-07-14 08:40:04 編輯: 來源:國際品牌資訊
導(dǎo)讀 谷歌正在研究如何使用AI將自然語言說明植根于智能手機應(yīng)用程序操作。在2020年計算語言學(xué)協(xié)會(ACL)會議接受的一項研究中,該公司的研究人員

谷歌正在研究如何使用AI將自然語言說明植根于智能手機應(yīng)用程序操作。在2020年計算語言學(xué)協(xié)會(ACL)會議接受的一項研究中,該公司的研究人員提出了語料庫來訓(xùn)練模型,以減輕需要通過應(yīng)用進行操縱的需求,這可能對視力障礙者有用。

當(dāng)協(xié)調(diào)工作并完成涉及一系列動作的任務(wù)時(例如,按照制作生日蛋糕的食譜),人們會相互提供指示??紤]到這一點,研究人員著手為可以幫助進行類似交互的AI代理建立基準(zhǔn)。給定一組指令,這些代理將理想地預(yù)測一系列應(yīng)用程序動作以及在應(yīng)用程序從一個屏幕過渡到另一個屏幕時生成的屏幕和交互元素。

研究人員在論文中描述了一個兩步解決方案,包括一個動作短語提取步驟和一個接地步驟。動作短語提取使用Transformer模型從多步驟指令中識別操作,對象和參數(shù)描述。(模型中的“區(qū)域關(guān)注”模塊允許它整體上處理指令中的一組相鄰單詞,以對描述進行解碼。)接地將提取的操作和對象描述與屏幕上的UI對象進行匹配,再次使用一種Transformer模型,但可以在上下文中表示UI對象并為其基礎(chǔ)對象描述。

合著者創(chuàng)建了三個新的數(shù)據(jù)集來訓(xùn)練和評估他們的動作短語提取和基礎(chǔ)模型:

第一個包含187條多步驟英文說明,用于操作Pixel手機及其相應(yīng)的操作屏幕序列。

第二個包含來自網(wǎng)絡(luò)的英文“操作方法”說明以及描述每個動作的帶注釋短語。

第三個包含295,000個單步命令,這些命令用于UI動作,這些動作來自公共Android UI語料庫的25,000個移動UI屏幕上的178,000個UI對象。

他們報告說,關(guān)注區(qū)域的變壓器在預(yù)測與地面真實情況完全匹配的跨度序列時可達到85.56%的準(zhǔn)確度。同時,在將語言指令端到端映射到更具挑戰(zhàn)性的任務(wù)時,短語提取器和基礎(chǔ)模型一起獲得89.21%的局部準(zhǔn)確度和70.59%的完全準(zhǔn)確度,以匹配地面真實動作序列。

研究人員斷言,數(shù)據(jù)集,模型和結(jié)果(所有這些數(shù)據(jù)集,模型和結(jié)果都可以從GitHub上的開放源代碼獲得)為解決將自然語言指令扎根于移動UI動作這一具有挑戰(zhàn)性的問題邁出了重要的第一步。

“這項研究以及總體上的語言基礎(chǔ),是將多階段指令轉(zhuǎn)換為圖形用戶界面上的動作的重要一步。成功地將任務(wù)自動化應(yīng)用于UI域有潛力顯著提高可訪問性,其中語言界面可以幫助視力障礙的人使用看得到的界面執(zhí)行任務(wù)。”“當(dāng)人們在手頭的任務(wù)所困擾的情況下無法輕松訪問設(shè)備時,這對于情況損害也很重要。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。