您的位置: 首頁 >商業(yè)新聞 >

美媒揭秘大模型訓(xùn)練數(shù)據(jù)集 部分內(nèi)容可能有些臟

2023-04-21 13:29:46 編輯:夏侯燕朗 來源:
導(dǎo)讀 在美國當(dāng)?shù)貢r間的周三,艾倫人工智能研究院在《華盛頓郵報》發(fā)表了一篇調(diào)查結(jié)果,在調(diào)查結(jié)果中表明研究院的工作人員拆除了谷歌的C4數(shù)據(jù)集,...

在美國當(dāng)?shù)貢r間的周三,艾倫人工智能研究院在《華盛頓郵報》發(fā)表了一篇調(diào)查結(jié)果,在調(diào)查結(jié)果中表明研究院的工作人員拆除了谷歌的C4數(shù)據(jù)集,這也是很多非常有名的英語AI大模型的訓(xùn)練材料,調(diào)查人員在拆除完成之后使用了SimilarWeb的網(wǎng)站針對數(shù)據(jù)進(jìn)行分類,由于C4的數(shù)據(jù)集中,有1/3的網(wǎng)站目前已經(jīng)不存在了,因此經(jīng)過實際統(tǒng)計之后,發(fā)現(xiàn)大約有1萬個網(wǎng)站,艾倫人工智能研究院的工作人員表示,在這些統(tǒng)計過的數(shù)據(jù)集里面發(fā)現(xiàn)了一部分內(nèi)容有些臟。

根據(jù)調(diào)查研究,發(fā)現(xiàn)包括了全球?qū)@畔⒌墓雀鑼@W(wǎng),以及維基百科和訂閱至數(shù)字圖書館的資料權(quán)重位列整體的前,三但隨著列表不斷的往下翻之后就發(fā)現(xiàn)了很多,讓你意想不到的的名字也出現(xiàn)在數(shù)據(jù)集里面,已經(jīng)被美國司法部門查封的盜版電子書網(wǎng)站,在數(shù)據(jù)集里面竟然排在了第190位,像這種因為侵犯版權(quán)而被美國查封的網(wǎng)站,在數(shù)據(jù)集中至少出現(xiàn)了27次。

除此之外,魔獸世界的玩家論壇在數(shù)據(jù)集里面排在了第181位,創(chuàng)立了《赫芬頓郵報》創(chuàng)始人阿里安娜赫芬頓的行為轉(zhuǎn)變成課程網(wǎng)站,也排在了第175位,病人最意想不到的是有兩個美國投票人數(shù)數(shù)據(jù)庫網(wǎng)站竟然排在了前100位,雖然投票的數(shù)據(jù)本身就是需要公開的,但大模型竟然將這些個人數(shù)據(jù)用在這里,究竟怎樣?又有誰能說得清楚呢?

接下來調(diào)查的數(shù)據(jù)中還顯示了,AI大模型還潛在著侵權(quán)的問題,這一問題甚至比你們想象中的要更加嚴(yán)重很多,商業(yè)和行業(yè)網(wǎng)站作為數(shù)據(jù)集里面比重最大的一部分,創(chuàng)意產(chǎn)品眾籌網(wǎng)站在榜單中也排在了極高的位置,這也就引發(fā)了一個新的問題出現(xiàn)AI向用戶提供了很多創(chuàng)意和市場營銷方案,很有可能本身所使用的就是現(xiàn)成的作品。

令人無比擔(dān)憂的是,在訓(xùn)練集中還能夠找到醫(yī)學(xué)先生種族主義和右翼陰謀論的網(wǎng)頁,甚至在數(shù)據(jù)集里面還出現(xiàn)了很多組織網(wǎng)絡(luò)暴力的匿名聊天網(wǎng)站,有些臟的數(shù)據(jù)相比大模型處理數(shù)據(jù)的態(tài)度顯得更加的撲朔迷離。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號:

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)