相機(jī)最近的最大進(jìn)步來自人工智能而不是傳感器和鏡頭

2022-09-04 03:13:20 編輯：華光榮來源：

導(dǎo)讀如果您想知道下一部手機(jī)的攝像頭的性能如何，明智的做法是注意制造商對AI的評價。除了大肆宣傳之外，這項技術(shù)在過去幾年中還使攝影技術(shù)取得...

如果您想知道下一部手機(jī)的攝像頭的性能如何，明智的做法是注意制造商對AI的評價。除了大肆宣傳之外，這項技術(shù)在過去幾年中還使攝影技術(shù)取得了驚人的進(jìn)步，沒有理由認(rèn)為進(jìn)展會放慢。

可以肯定，周圍還有很多頭。但是，最近攝影領(lǐng)域最令人印象深刻的進(jìn)步發(fā)生在軟件和芯片級別，而不是傳感器或鏡頭–這在很大程度上要歸功于AI使相機(jī)更好地了解了他們所看的東西。

Google相冊清楚地展示了2015年該應(yīng)用程序啟動時將AI和攝影相結(jié)合的強(qiáng)大功能。在此之前，搜索巨頭多年來一直在使用機(jī)器學(xué)習(xí)對Google+中的圖像進(jìn)行分類，但該公司推出了“照片”應(yīng)用程序包括大多數(shù)人難以想象的面向消費者的AI功能。一夜之間，用戶雜亂無章的數(shù)千張未標(biāo)記照片庫被轉(zhuǎn)換成可搜索的數(shù)據(jù)庫。

突然之間，或看起來，Google知道您的貓是什么樣子。

Google建立了一個經(jīng)過深度訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)，以人類標(biāo)記的數(shù)據(jù)為基礎(chǔ)，該研究是在2013年收購DNNresearch的先前工作的基礎(chǔ)上進(jìn)行的。這稱為監(jiān)督學(xué)習(xí);該過程涉及在數(shù)百萬張圖像上訓(xùn)練網(wǎng)絡(luò)，以便它可以在像素級別尋找視覺線索以幫助識別類別。隨著時間的流逝，該算法在識別大熊貓方面變得越來越好，因為它包含過去用來正確識別大熊貓的模式。例如，它可以了解黑色皮毛和白色皮毛之間的相互關(guān)系，以及與荷斯坦奶牛的皮有何不同。經(jīng)過進(jìn)一步的培訓(xùn)，就有可能搜索更抽象的術(shù)語，例如“動物”或“早餐”，這些術(shù)語可能沒有共同的視覺指標(biāo)，但對于人類仍然是立即顯而易見的。

訓(xùn)練這樣的算法需要花費大量時間和處理能力，但是在數(shù)據(jù)中心完成其工作后，就可以在低功率移動設(shè)備上運(yùn)行而不會帶來太多麻煩。繁重的工作已經(jīng)完成，因此，一旦您的照片上傳到云中，Google便可以使用其模型來分析和標(biāo)記整個庫。Google Photos推出大約一年后，Apple宣布了照片搜索功能，該功能在神經(jīng)網(wǎng)絡(luò)上進(jìn)行了類似的訓(xùn)練，但是作為公司對隱私保護(hù)的承諾的一部分，實際分類是在每個設(shè)備的處理器上分別進(jìn)行的，而不發(fā)送數(shù)據(jù)。這通常需要一兩天，并且會在設(shè)置后的后臺發(fā)生。

智能照片管理軟件是一回事，但可以說，人工智能和機(jī)器學(xué)習(xí)首先會對圖像的捕獲產(chǎn)生更大的影響。是的，鏡頭繼續(xù)變得更快一點，傳感器總是可以變得更大一點，但是在將光學(xué)系統(tǒng)塞入超薄移動設(shè)備中時，我們已經(jīng)在推動物理的局限性。盡管如此，如今至少在后期處理之前，手機(jī)在某些情況下要比許多專用攝像頭拍攝更好的照片并不罕見。這是因為傳統(tǒng)相機(jī)無法在對攝影同樣重要的另一類硬件上競爭：包含CPU，圖像信號處理器以及神經(jīng)處理單元(NPU)的片上系統(tǒng)。

這就是所謂的計算攝影中使用的硬件，這個廣義的術(shù)語涵蓋了從手機(jī)人像模式中虛假的景深效果到有助于驅(qū)動Google Pixel令人難以置信的圖像質(zhì)量的算法等所有內(nèi)容。并非所有的計算攝影都涉及AI，但AI無疑是AI的主要組成部分。

蘋果公司利用這項技術(shù)來驅(qū)動其雙攝像頭手機(jī)的縱向模式。iPhone的圖像信號處理器使用機(jī)器學(xué)習(xí)技術(shù)通過一個攝像頭識別人，而第二個攝像頭創(chuàng)建一個深度圖，以幫助隔離對象并模糊背景。通過機(jī)器學(xué)習(xí)識別人的能力在2016年首次亮相時并不是什么新功能，因為照片組織軟件已經(jīng)在這樣做。但是以智能手機(jī)相機(jī)所需的速度實時管理它是一個突破。

Google仍然是該領(lǐng)域的明顯領(lǐng)導(dǎo)者，而三代Pixel所產(chǎn)生的出色結(jié)果是最令人信服的證據(jù)。HDR +是默認(rèn)的拍攝模式，它使用一種復(fù)雜的算法將幾張曝光不足的幀合并為一個，就像Google的計算攝影負(fù)責(zé)人Marc Levoy在The Verge中指出的那樣，機(jī)器學(xué)習(xí)意味著系統(tǒng)只會隨著時間的推移而變得更好。Google已使用Google Photos軟件在龐大的帶有標(biāo)簽的照片數(shù)據(jù)集上訓(xùn)練了AI，這進(jìn)一步幫助了相機(jī)進(jìn)行曝光。像素2，特別是，生產(chǎn)這種基線圖像質(zhì)量的令人印象深刻的水平，有些我們在邊緣已經(jīng)超過舒適的使用它的專業(yè)工作在這個網(wǎng)站上。

GOOGLE的NIGHT SIGHT是關(guān)于軟件在攝影中的作用的驚人廣告

但是Google的優(yōu)勢似乎從未像幾個月前推出Night Sight那樣明顯。全新的Pixel功能將長時間曝光拼接在一起，并使用機(jī)器學(xué)習(xí)算法來計算更準(zhǔn)確的白平衡和色彩，并得出令人驚訝的結(jié)果。該功能在Pixel 3上效果最佳，因為算法設(shè)計時考慮了最新的硬件，但Google使其可用于所有Pixel手機(jī)-甚至包括缺乏光學(xué)圖像穩(wěn)定功能的原始手機(jī)-以及有關(guān)如何使用軟件的驚人廣告對于移動攝影，現(xiàn)在比照相機(jī)硬件更重要。

話雖如此，硬件仍有空間發(fā)揮作用，特別是在有AI支持的情況下。Honor的新款View 20手機(jī)以及母公司華為的Nova 4，是首款使用Sony IMX586圖像傳感器的手機(jī)。它比大多數(shù)競爭對手都更大的傳感器，其48兆像素代表了迄今為止在任何手機(jī)上所見的最高分辨率。但這仍然意味著將很多微小的像素塞滿一個很小的空間，這對于圖像質(zhì)量來說往往是有問題的。但是，在我的View 20測試中，Honor的“ AI Ultra Clarity”模式擅長充分利用分辨率，對傳感器不尋常的濾色器進(jìn)行解密以解鎖更多細(xì)節(jié)。這會產(chǎn)生巨大的照片，您可以放大數(shù)天。

圖像信號處理器對于手機(jī)相機(jī)的性能一直很重要，但是隨著計算攝影技術(shù)的發(fā)展，NPU似乎將扮演更大的角色。華為是第一家發(fā)布具有專用AI硬件的芯片系統(tǒng)Kirin 970的公司，盡管蘋果的A11 Bionic最終獲得了消費者的青睞。全球最大的Android處理器供應(yīng)商高通公司(Qualcomm)尚未將機(jī)器學(xué)習(xí)作為主要重點，但谷歌已經(jīng)開發(fā)了自己的名為Pixel Visual Core的芯片來幫助完成與AI相關(guān)的成像任務(wù)。同時，最新的Apple A12 Bionic具有八核神經(jīng)引擎，可以在Apple機(jī)器學(xué)習(xí)框架Core ML中運(yùn)行任務(wù)，其速度比A11快9倍，并且首次將其直接鏈接到圖像處理器。蘋果表示，這可以使相機(jī)更好地了解焦平面，例如，有助于產(chǎn)生更真實的景深。

相機(jī)是任何手機(jī)的基本功能，而AI是我們改進(jìn)相機(jī)的最佳選擇

對于高效和高性能的設(shè)備上機(jī)器學(xué)習(xí)而言，這種硬件將變得越來越重要，就其對處理器的需求而言，它具有極高的上限。請記住，在將Google Photos設(shè)置為強(qiáng)大的功能之前，必須在具有強(qiáng)大GPU和張量核心的強(qiáng)大計算機(jī)上對其進(jìn)行訓(xùn)練，然后再將它們放到照片庫中。可以說，許多工作可以“提前”完成，但是在移動設(shè)備上實時執(zhí)行機(jī)器學(xué)習(xí)計算的能力仍然是最前沿的。

Google展示了一些令人印象深刻的工作，它們可以減輕處理負(fù)擔(dān)，而神經(jīng)引擎的速度每年都在提高。但是，即使在計算攝影的早期階段，從圍繞機(jī)器學(xué)習(xí)設(shè)計的手機(jī)攝像頭中也可以發(fā)現(xiàn)真正的好處。實際上，在過去幾年的AI炒作浪潮中提出的所有可能性和應(yīng)用中，當(dāng)今最實用的領(lǐng)域可以說是攝影。相機(jī)是任何手機(jī)的基本功能，而AI是我們改進(jìn)相機(jī)的最佳選擇。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！