一種可以增強(qiáng)計算機(jī)視覺的新機(jī)器學(xué)習(xí)策略

2019-06-13 17:16:50 編輯：來源：

導(dǎo)讀來自巴塞羅那自治大學(xué)，卡內(nèi)基梅隆大學(xué)和印度海德拉巴國際信息技術(shù)研究所的研究人員開發(fā)出一種技術(shù)，可以讓深度學(xué)習(xí)算法以自我監(jiān)督的方式學(xué)

來自巴塞羅那自治大學(xué)，卡內(nèi)基梅隆大學(xué)和印度海德拉巴國際信息技術(shù)研究所的研究人員開發(fā)出一種技術(shù)，可以讓深度學(xué)習(xí)算法以自我監(jiān)督的方式學(xué)習(xí)圖像的視覺特征，而無需人類研究人員的注釋。

為了在計算機(jī)視覺任務(wù)中取得顯著成果，深度學(xué)習(xí)算法需要在包含有關(guān)每個圖像的大量信息的大規(guī)模注釋數(shù)據(jù)集上進(jìn)行訓(xùn)練。但是，收集和手動注釋這些圖像需要大量的時間，資源和人力。

“我們的目標(biāo)是讓計算機(jī)能夠閱讀和理解現(xiàn)實世界中任何類型圖像的文本信息，”進(jìn)行這項研究的研究人員之一Dimosthenis Karatzas在接受Tech Xplore采訪時表示。

人類使用文本信息來解釋呈現(xiàn)給他們的所有情況，以及描述他們周圍或特定圖像中發(fā)生的事情。研究人員現(xiàn)在正在嘗試為機(jī)器提供類似的功能，因為這會大大減少用于注釋大型數(shù)據(jù)集的資源量。

在他們的研究中，Karatzas和他的同事設(shè)計了計算模型，使用維基百科或其他在線平臺的數(shù)據(jù)，將圖像的文本信息與其中包含的視覺信息相結(jié)合。然后，他們使用這些模型來訓(xùn)練深度學(xué)習(xí)算法，以了解如何選擇語義描述圖像的良好視覺特征。

與基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的其他模型一樣，端到端學(xué)習(xí)特征，不同的層自動學(xué)習(xí)專注于不同的事物，從第一層中的像素級細(xì)節(jié)到最后層中的更抽象特征。。

然而，Karatzas及其同事開發(fā)的模型不需要為每個圖像指定特定的注釋。相反，找到圖像的文本上下文(例如維基百科文章)充當(dāng)監(jiān)督信號。

換句話說，這個研究小組創(chuàng)建的新技術(shù)提供了完全無監(jiān)督算法的替代方案，該算法使用與圖像相關(guān)的非視覺元素，作為自我監(jiān)督訓(xùn)練的來源。

“這將成為學(xué)習(xí)如何在計算機(jī)中表示圖像的一種非常有效的方式，無需任何明確的注釋 - 關(guān)于圖像內(nèi)容的標(biāo)簽 - 這需要花費(fèi)大量時間和手動工作，”Karatzas解釋說。“這些新的圖像表示以自我監(jiān)督的方式學(xué)習(xí)，具有足夠的辨別力，可用于一系列典型的計算機(jī)視覺任務(wù)，如圖像分類和物體檢測。”

研究人員開發(fā)的方法允許使用文本作為監(jiān)督信號來學(xué)習(xí)有用的圖像特征。這可以為深度學(xué)習(xí)開辟新的可能性，允許算法在不需要注釋的情況下學(xué)習(xí)高質(zhì)量的圖像特征，只需分析在線即可獲得的文本和視覺資源。

通過使用來自互聯(lián)網(wǎng)的圖像訓(xùn)練他們的算法，研究人員強(qiáng)調(diào)了在線可以獲得的內(nèi)容的價值。

“我們的研究表明，網(wǎng)絡(luò)可以作為一組嘈雜的數(shù)據(jù)被利用來學(xué)習(xí)有關(guān)圖像內(nèi)容的有用表現(xiàn)，”Karatzas說。“我們不是第一個，也不是唯一暗示這個方向的人，但我們的工作已經(jīng)證明了這樣做的具體方法，利用維基百科文章作為數(shù)據(jù)來學(xué)習(xí)。”

在未來的研究中，Karatzas和他的同事將嘗試確定使用圖像嵌入文本信息自動描述和回答圖像內(nèi)容問題的最佳方法。

“我們將繼續(xù)致力于文本和視覺信息的聯(lián)合嵌入，尋找通過利用網(wǎng)絡(luò)和社交媒體中可用的嘈雜信息進(jìn)行語義檢索的新方法，”Karatzas補(bǔ)充道。

標(biāo)簽：新機(jī)器學(xué)習(xí)策略