2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在即將舉行的2020年歐洲計(jì)算機(jī)視覺(jué)歐洲會(huì)議上接受的一項(xiàng)研究中,麻省理工學(xué)院和麻省理工學(xué)院的IBM Watson AI Lab研究人員描述了一種AI系統(tǒng)— Foley Music —可以從演奏樂(lè)器的音樂(lè)家的無(wú)聲視頻中產(chǎn)生“合理的”音樂(lè)。他們說(shuō),它可以在各種音樂(lè)表演中工作,并且在產(chǎn)生令人愉悅的音樂(lè)方面,其表現(xiàn)優(yōu)于“幾種”現(xiàn)有系統(tǒng)。
研究人員相信,可以從人體運(yùn)動(dòng)中推斷出音樂(lè)的AI模型可以作為一系列應(yīng)用程序的基礎(chǔ),從自動(dòng)向視頻添加聲音效果到在虛擬現(xiàn)實(shí)中創(chuàng)建沉浸式體驗(yàn)。來(lái)自認(rèn)知心理學(xué)的研究表明,人類具有這種技能,例如,甚至幼兒也報(bào)告說(shuō),他們聽(tīng)到的聲音受到他們看到一個(gè)人說(shuō)話后所收到的信號(hào)的影響。
Foley Music從視頻幀中提取人體的2D關(guān)鍵點(diǎn)(總共25個(gè)點(diǎn))和手指(21個(gè)點(diǎn))作為中間視覺(jué)表示,用于建模身體和手部動(dòng)作。對(duì)于音樂(lè),系統(tǒng)采用MIDI表示形式,對(duì)每個(gè)音符的時(shí)間和響度進(jìn)行編碼。給定關(guān)鍵點(diǎn)和MIDI事件(通常約有500個(gè)),“圖形轉(zhuǎn)換器”模塊學(xué)習(xí)映射功能以將運(yùn)動(dòng)與音樂(lè)相關(guān)聯(lián),捕獲長(zhǎng)期關(guān)系以產(chǎn)生手風(fēng)琴,低音,低音管,大提琴,吉他,鋼琴,大號(hào),四弦琴和小提琴夾。
系統(tǒng)不會(huì)將MIDI事件轉(zhuǎn)換為音樂(lè),但研究人員指出,可以將它們導(dǎo)入標(biāo)準(zhǔn)的合成器中。團(tuán)隊(duì)需要培訓(xùn)神經(jīng)綜合器,以自動(dòng)執(zhí)行此操作以用于將來(lái)的工作。
在實(shí)驗(yàn)中,研究人員在三個(gè)數(shù)據(jù)集上對(duì)Foley Music進(jìn)行了訓(xùn)練,這些數(shù)據(jù)集包含屬于11個(gè)類別的1,000個(gè)音樂(lè)表演視頻:URMP,一種記錄在工作室中的高質(zhì)量多樂(lè)器視頻語(yǔ)料庫(kù),為每個(gè)錄制的視頻提供MIDI文件;AtinPiano,這是一個(gè)YouTube頻道,其中包含鋼琴視頻錄制,并且相機(jī)俯視鍵盤(pán)和手;和MUSIC,一種未修剪的視頻數(shù)據(jù)集,可通過(guò)從YouTube查詢關(guān)鍵字來(lái)下載。
研究人員讓受過(guò)訓(xùn)練的Foley Music系統(tǒng)生成了450個(gè)視頻的MIDI片段。然后,他們進(jìn)行了一項(xiàng)傾聽(tīng)研究,對(duì)來(lái)自Amazon Mechanical Turk的志愿者進(jìn)行了任務(wù)評(píng)估,對(duì)四個(gè)類別中的50個(gè)片段進(jìn)行了評(píng)分:
正確性:生成的歌曲與視頻內(nèi)容之間的相關(guān)性如何。
噪音:哪首歌的噪音最小。
同步:哪首歌曲在時(shí)間上與視頻內(nèi)容最一致。
總體:他們更喜歡聽(tīng)哪首歌。
研究人員報(bào)告說(shuō),評(píng)估人員發(fā)現(xiàn),與其他基準(zhǔn)系統(tǒng)相比,F(xiàn)oley Music的音樂(lè)很難與真實(shí)錄音區(qū)分開(kāi)。而且,MIDI事件表示似乎有助于改善聲音質(zhì)量,語(yǔ)義對(duì)齊和時(shí)間同步。
“結(jié)果表明,通過(guò)身體關(guān)鍵點(diǎn)和MIDI表示可以很好地建立視覺(jué)和音樂(lè)信號(hào)之間的相關(guān)性。我們還證明了我們的框架可以輕松擴(kuò)展,以通過(guò)MIDI表示生成不同風(fēng)格的音樂(lè),”合著者寫(xiě)道。“我們認(rèn)為我們的工作將為使用中間主體關(guān)鍵點(diǎn)
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。