當(dāng)今的智能手機經(jīng)常使用人工智能來使我們拍攝的照片更清晰

2022-07-29 14:49:20 編輯：賴誠紈來源：

導(dǎo)讀當(dāng)今的智能手機經(jīng)常使用人工智能(AI)來使我們拍攝的照片更清晰，更清晰。但是，如果可以使用這些AI工具從頭開始創(chuàng)建整個場景呢?麻省理工學(xué)...

當(dāng)今的智能手機經(jīng)常使用人工智能(AI)來使我們拍攝的照片更清晰，更清晰。但是，如果可以使用這些AI工具從頭開始創(chuàng)建整個場景呢?麻省理工學(xué)院和IBM的團隊現(xiàn)在已經(jīng)使用“ GANpaint Studio”完成了這一任務(wù)，該系統(tǒng)可以自動生成逼真的攝影圖像并編輯其中的對象。研究人員說，除了幫助藝術(shù)家和設(shè)計師快速調(diào)整視覺效果外，這項工作還可以幫助計算機科學(xué)家識別“偽造”圖像。

David Bau博士麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)的一名學(xué)生將這個項目描述為計算機科學(xué)家首次真正能夠“用神經(jīng)網(wǎng)絡(luò)的神經(jīng)元進行繪畫”，特別是一種流行的網(wǎng)絡(luò)，稱為“生成網(wǎng)絡(luò)”。對抗網(wǎng)絡(luò)(GAN)。

GANpaint Studio 作為交互式演示在線提供，用戶可以上傳自己選擇的圖像并修改其外觀的多個方面，從更改對象的大小到添加全新的項目(如樹木和建筑物)。

設(shè)計師的福音

該項目由MIT教授Antonio Torralba牽頭，是他領(lǐng)導(dǎo)的MIT-IBM Watson AI Lab的一部分，該項目具有廣泛的潛在應(yīng)用。設(shè)計師和藝術(shù)家可以使用它來更快地調(diào)整其視覺效果。使系統(tǒng)適應(yīng)視頻剪輯，將使計算機圖形編輯人員可以快速組合特定鏡頭所需的特定對象布置。(例如，想象一下，如果一個導(dǎo)演與演員一起拍攝了一個完整的場景，但是卻忘記在背景中包含一個對劇情很重要的對象。)

GANpaint Studio還可以通過分析需要刪除的“工件”單元，來改進和調(diào)試正在開發(fā)的其他GAN。在不透明的AI工具使圖像處理比以往更容易的世界中，它可以幫助研究人員更好地理解神經(jīng)網(wǎng)絡(luò)及其底層結(jié)構(gòu)。

“目前，機器學(xué)習(xí)系統(tǒng)就是這些黑匣子，我們并不總是知道如何改進這些黑匣子，就像老式的電視機一樣，您必須將它們撞到一邊，” Bau說。由Torralba監(jiān)督的團隊撰寫有關(guān)該系統(tǒng)的論文。“這項研究表明，盡管打開電視并仔細(xì)查看所有電線可能會很嚇人，但那里會有很多有意義的信息。”

一個意外的發(fā)現(xiàn)是該系統(tǒng)實際上似乎已經(jīng)學(xué)習(xí)了一些有關(guān)對象之間關(guān)系的簡單規(guī)則。它以某種方式知道不要在不屬于自己的地方放置某些東西，例如天空中的窗戶，并且它還會在不同的上下文中創(chuàng)建不同的視覺效果。例如，如果圖像中有兩個不同的建筑物，并且要求系統(tǒng)在兩個建筑物上都添加門，則不只是添加相同的門，它們最終看起來可能彼此完全不同。

“所有繪圖應(yīng)用程序都將遵循用戶的說明，但是如果用戶命令將對象放置在不可能的位置，我們的應(yīng)用程序可能會決定不繪制任何內(nèi)容，” Torralba說。“這是一個具有強烈個性的繪圖工具，它打開了一個窗口，使我們能夠了解GAN如何學(xué)會代表視覺世界。”

GAN是為相互競爭而開發(fā)的神經(jīng)網(wǎng)絡(luò)集。在這種情況下，一個網(wǎng)絡(luò)是專注于創(chuàng)建逼真的圖像的生成器，第二個網(wǎng)絡(luò)是一個甄別器，其目標(biāo)是不被該生成器欺騙。鑒別器每次“捕獲”生成器時，都必須公開決策的內(nèi)部推理，這使生成器不斷變得更好。

芬蘭阿爾托大學(xué)副教授Jaakko Lehtinen說：“看到這項工作如何使我們直接看到GAN真正開始學(xué)習(xí)一些常識，真是令人難以置信。” 。“我認(rèn)為這種能力是擁有可以在人類世界中實際運行的自治系統(tǒng)的關(guān)鍵墊腳石，它是無限，復(fù)雜和不斷變化的。”

刪除不需要的“假”圖像

該團隊的目標(biāo)是使人們對GAN網(wǎng)絡(luò)有更多的控制權(quán)。但是他們認(rèn)識到，權(quán)力的增強會帶來濫用的可能性，例如使用此類技術(shù)來篡改照片。合著者朱俊彥說，他相信更好地了解GAN以及他們犯的錯誤種類將有助于研究人員更好地杜絕偽造品。

CSAIL的博士后朱說：“在防御之前，您需要了解對手。” “這種了解可能會幫助我們更輕松地檢測偽造圖像。”

為了開發(fā)該系統(tǒng)，團隊首先確定了GAN內(nèi)部與特定類型的對象(例如樹木)相關(guān)的單元。然后，它分別測試了這些單元，看清除它們是否會導(dǎo)致某些物體消失或出現(xiàn)。重要的是，他們還確定了導(dǎo)致視覺錯誤(偽影)的單元，并努力將其移除以提高圖像的整體質(zhì)量。

IBM的合著者Hendrik Strobelt說：“每當(dāng)GAN生成極其不真實的圖像時，這些錯誤的原因就一直是個謎。” “我們發(fā)現(xiàn)這些錯誤是由特定的神經(jīng)元集合觸發(fā)的，我們可以沉默這些神經(jīng)元來改善圖像質(zhì)量。”

Bau，Strobelt，Torralba和Zhu與前CSAIL博士共同撰寫了這篇論文。學(xué)生Bolei Zhou，博士后研究員Jonas Wulff和本科生William Peebles。他們將在下個月于洛杉磯舉行的SIGGRAPH會議上介紹該文檔。Lehtinen說：“該系統(tǒng)為更好地理解GAN模型打開了一扇門，這將有助于我們進行需要對GAN進行的任何類型的研究。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！