您的位置: 首頁 >科技 >

相機最近的最大進步來自人工智能 而不是傳感器和鏡頭

2022-09-04 03:13:20 編輯:華光榮 來源:
導讀 如果您想知道下一部手機的攝像頭的性能如何,明智的做法是注意制造商對AI的評價。除了大肆宣傳之外,這項技術(shù)在過去幾年中還使攝影技術(shù)取得...

如果您想知道下一部手機的攝像頭的性能如何,明智的做法是注意制造商對AI的評價。除了大肆宣傳之外,這項技術(shù)在過去幾年中還使攝影技術(shù)取得了驚人的進步,沒有理由認為進展會放慢。

可以肯定,周圍還有很多頭。但是,最近攝影領(lǐng)域最令人印象深刻的進步發(fā)生在軟件和芯片級別,而不是傳感器或鏡頭–這在很大程度上要歸功于AI使相機更好地了解了他們所看的東西。

Google相冊清楚地展示了2015年該應(yīng)用程序啟動時將AI和攝影相結(jié)合的強大功能。在此之前,搜索巨頭多年來一直在使用機器學習對Google+中的圖像進行分類,但該公司推出了“照片”應(yīng)用程序包括大多數(shù)人難以想象的面向消費者的AI功能。一夜之間,用戶雜亂無章的數(shù)千張未標記照片庫被轉(zhuǎn)換成可搜索的數(shù)據(jù)庫。

突然之間,或看起來,Google知道您的貓是什么樣子。

Google建立了一個經(jīng)過深度訓練的深度神經(jīng)網(wǎng)絡(luò),以人類標記的數(shù)據(jù)為基礎(chǔ),該研究是在2013年收購DNNresearch的先前工作的基礎(chǔ)上進行的。這稱為監(jiān)督學習;該過程涉及在數(shù)百萬張圖像上訓練網(wǎng)絡(luò),以便它可以在像素級別尋找視覺線索以幫助識別類別。隨著時間的流逝,該算法在識別大熊貓方面變得越來越好,因為它包含過去用來正確識別大熊貓的模式。例如,它可以了解黑色皮毛和白色皮毛之間的相互關(guān)系,以及與荷斯坦奶牛的皮有何不同。經(jīng)過進一步的培訓,就有可能搜索更抽象的術(shù)語,例如“動物”或“早餐”,這些術(shù)語可能沒有共同的視覺指標,但對于人類仍然是立即顯而易見的。

訓練這樣的算法需要花費大量時間和處理能力,但是在數(shù)據(jù)中心完成其工作后,就可以在低功率移動設(shè)備上運行而不會帶來太多麻煩。繁重的工作已經(jīng)完成,因此,一旦您的照片上傳到云中,Google便可以使用其模型來分析和標記整個庫。Google Photos推出大約一年后,Apple宣布了照片搜索功能,該功能在神經(jīng)網(wǎng)絡(luò)上進行了類似的訓練,但是作為公司對隱私保護的承諾的一部分,實際分類是在每個設(shè)備的處理器上分別進行的,而不發(fā)送數(shù)據(jù)。這通常需要一兩天,并且會在設(shè)置后的后臺發(fā)生。

智能照片管理軟件是一回事,但可以說,人工智能和機器學習首先會對圖像的捕獲產(chǎn)生更大的影響。是的,鏡頭繼續(xù)變得更快一點,傳感器總是可以變得更大一點,但是在將光學系統(tǒng)塞入超薄移動設(shè)備中時,我們已經(jīng)在推動物理的局限性。盡管如此,如今至少在后期處理之前,手機在某些情況下要比許多專用攝像頭拍攝更好的照片并不罕見。這是因為傳統(tǒng)相機無法在對攝影同樣重要的另一類硬件上競爭:包含CPU,圖像信號處理器以及神經(jīng)處理單元(NPU)的片上系統(tǒng)。

這就是所謂的計算攝影中使用的硬件,這個廣義的術(shù)語涵蓋了從手機人像模式中虛假的景深效果到有助于驅(qū)動Google Pixel令人難以置信的圖像質(zhì)量的算法等所有內(nèi)容。并非所有的計算攝影都涉及AI,但AI無疑是AI的主要組成部分。

蘋果公司利用這項技術(shù)來驅(qū)動其雙攝像頭手機的縱向模式。iPhone的圖像信號處理器使用機器學習技術(shù)通過一個攝像頭識別人,而第二個攝像頭創(chuàng)建一個深度圖,以幫助隔離對象并模糊背景。通過機器學習識別人的能力在2016年首次亮相時并不是什么新功能,因為照片組織軟件已經(jīng)在這樣做。但是以智能手機相機所需的速度實時管理它是一個突破。

Google仍然是該領(lǐng)域的明顯領(lǐng)導者,而三代Pixel所產(chǎn)生的出色結(jié)果是最令人信服的證據(jù)。HDR +是默認的拍攝模式,它使用一種復雜的算法將幾張曝光不足的幀合并為一個,就像Google的計算攝影負責人Marc Levoy在The Verge中指出的那樣,機器學習意味著系統(tǒng)只會隨著時間的推移而變得更好。Google已使用Google Photos軟件在龐大的帶有標簽的照片數(shù)據(jù)集上訓練了AI,這進一步幫助了相機進行曝光。像素2,特別是,生產(chǎn)這種基線圖像質(zhì)量的令人印象深刻的水平,有些我們在邊緣已經(jīng)超過舒適的使用它的專業(yè)工作在這個網(wǎng)站上。

GOOGLE的NIGHT SIGHT是關(guān)于軟件在攝影中的作用的驚人廣告

但是Google的優(yōu)勢似乎從未像幾個月前推出Night Sight那樣明顯。全新的Pixel功能將長時間曝光拼接在一起,并使用機器學習算法來計算更準確的白平衡和色彩,并得出令人驚訝的結(jié)果。該功能在Pixel 3上效果最佳,因為算法設(shè)計時考慮了最新的硬件,但Google使其可用于所有Pixel手機-甚至包括缺乏光學圖像穩(wěn)定功能的原始手機-以及有關(guān)如何使用軟件的驚人廣告對于移動攝影,現(xiàn)在比照相機硬件更重要。

話雖如此,硬件仍有空間發(fā)揮作用,特別是在有AI支持的情況下。Honor的新款View 20手機以及母公司華為的Nova 4,是首款使用Sony IMX586圖像傳感器的手機。它比大多數(shù)競爭對手都更大的傳感器,其48兆像素代表了迄今為止在任何手機上所見的最高分辨率。但這仍然意味著將很多微小的像素塞滿一個很小的空間,這對于圖像質(zhì)量來說往往是有問題的。但是,在我的View 20測試中,Honor的“ AI Ultra Clarity”模式擅長充分利用分辨率,對傳感器不尋常的濾色器進行解密以解鎖更多細節(jié)。這會產(chǎn)生巨大的照片,您可以放大數(shù)天。

圖像信號處理器對于手機相機的性能一直很重要,但是隨著計算攝影技術(shù)的發(fā)展,NPU似乎將扮演更大的角色。華為是第一家發(fā)布具有專用AI硬件的芯片系統(tǒng)Kirin 970的公司,盡管蘋果的A11 Bionic最終獲得了消費者的青睞。全球最大的Android處理器供應(yīng)商高通公司(Qualcomm)尚未將機器學習作為主要重點,但谷歌已經(jīng)開發(fā)了自己的名為Pixel Visual Core的芯片來幫助完成與AI相關(guān)的成像任務(wù)。同時,最新的Apple A12 Bionic具有八核神經(jīng)引擎,可以在Apple機器學習框架Core ML中運行任務(wù),其速度比A11快9倍,并且首次將其直接鏈接到圖像處理器。蘋果表示,這可以使相機更好地了解焦平面,例如,有助于產(chǎn)生更真實的景深。

相機是任何手機的基本功能,而AI是我們改進相機的最佳選擇

對于高效和高性能的設(shè)備上機器學習而言,這種硬件將變得越來越重要,就其對處理器的需求而言,它具有極高的上限。請記住,在將Google Photos設(shè)置為強大的功能之前,必須在具有強大GPU和張量核心的強大計算機上對其進行訓練,然后再將它們放到照片庫中??梢哉f,許多工作可以“提前”完成,但是在移動設(shè)備上實時執(zhí)行機器學習計算的能力仍然是最前沿的。

Google展示了一些令人印象深刻的工作,它們可以減輕處理負擔,而神經(jīng)引擎的速度每年都在提高。但是,即使在計算攝影的早期階段,從圍繞機器學習設(shè)計的手機攝像頭中也可以發(fā)現(xiàn)真正的好處。實際上,在過去幾年的AI炒作浪潮中提出的所有可能性和應(yīng)用中,當今最實用的領(lǐng)域可以說是攝影。相機是任何手機的基本功能,而AI是我們改進相機的最佳選擇。


免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。