2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
上周,IBM終于放棄了大數(shù)據(jù)運(yùn)動(dòng)中的一項(xiàng)關(guān)鍵技術(shù),轉(zhuǎn)而把精力放在了一個(gè)新的競(jìng)爭(zhēng)對(duì)手身上。該公司正在將Apache Spark添加到其開源大型數(shù)據(jù)處理軟件組合中,使長(zhǎng)期存在的system MapReduce黯然失色。
該公司稱Spark是十年來最重要的開源項(xiàng)目,并承諾將該技術(shù)嵌入其分析和商業(yè)平臺(tái),并在自己的公共云基礎(chǔ)設(shè)施上提供Spark服務(wù)。藍(lán)色巨人還將把它的SystemML機(jī)器學(xué)習(xí)技術(shù)捐贈(zèng)給Spark開源運(yùn)動(dòng)。為什么?
Spark是一個(gè)用于數(shù)據(jù)處理的通用框架,設(shè)計(jì)用于運(yùn)行在多個(gè)不同計(jì)算機(jī)集群中同時(shí)處理數(shù)據(jù)的應(yīng)用程序。這解決了兩個(gè)與處理大量數(shù)據(jù)相關(guān)的常見問題。
首先,非常大的數(shù)據(jù)集可能需要很長(zhǎng)時(shí)間才能跨越網(wǎng)絡(luò)轉(zhuǎn)移到一臺(tái)單獨(dú)處理它們的計(jì)算機(jī)上。其次,一些大型數(shù)據(jù)應(yīng)用程序,如機(jī)器學(xué)習(xí),要求所有數(shù)據(jù)同時(shí)存儲(chǔ)在內(nèi)存中。這對(duì)于一臺(tái)計(jì)算機(jī)來說是非常困難的,當(dāng)你談?wù)搕b級(jí)的東西時(shí)。這就是為什么Spark被描述為機(jī)器學(xué)習(xí)應(yīng)用程序的有用工具,而機(jī)器學(xué)習(xí)應(yīng)用程序通常需要大量的經(jīng)驗(yàn)數(shù)據(jù)。
在歷史上,對(duì)于許多人來說,跨計(jì)算機(jī)集群處理大型數(shù)據(jù)集的首選技術(shù)是MapReduce,它是為大型數(shù)據(jù)處理平臺(tái)Hadoop分配處理任務(wù)的技術(shù)。
Hadoop也是Apache基金會(huì)的產(chǎn)品,受到包括IBM和HP在內(nèi)的各種供應(yīng)商的支持。IBM基于Apache開源發(fā)行版發(fā)布的Hadoop稱為IOP。
IBM全球大數(shù)據(jù)分析平臺(tái)技術(shù)銷售主管Dirk deRoos認(rèn)為,Spark作為Hadoop的工具,正在超越MapReduce。他說,它為程序員提供了更富表現(xiàn)力的API,使他們能夠用數(shù)據(jù)處理做更廣泛的事情。這意味著它們可以用于不同的工作,他補(bǔ)充說。
“MapReduce非常擅長(zhǎng)批量處理符合嚴(yán)格的Map和Reduce模型的應(yīng)用程序,而Sparkis要靈活得多,”他說。
spark可以用于批量應(yīng)用程序,也可以用于交互式應(yīng)用程序。當(dāng)用戶詢問問題時(shí),比如SQL查詢,并希望在幾秒鐘或更少的時(shí)間內(nèi)返回結(jié)果,”他繼續(xù)說道。它還可以用于近乎實(shí)時(shí)的應(yīng)用程序,比如處理跨neetowrk的數(shù)據(jù)流。
MapReduce的缺點(diǎn)很可能影響了谷歌在一年前有效地放棄這項(xiàng)技術(shù)。去年6月,它宣布將取代MapReduce,一個(gè)它自己建立的新的云分析系統(tǒng),稱為云數(shù)據(jù)流。
IBM也許會(huì)把精力集中在Spark上,但它不會(huì)放棄MapReduce。只要Apache開源項(xiàng)目將該技術(shù)包含在Hadoop中,它就會(huì)繼續(xù)發(fā)布該技術(shù),但I(xiàn)BM現(xiàn)在也將Spark整合到自己的Hadoop發(fā)行版中。Spark既可以用于Hadoop項(xiàng)目,也可以用于其他非Hadoop項(xiàng)目。
與Hadoop一樣,Spark也可以在IBM的完全開源發(fā)行版上使用,即Apache Hadoop的開放平臺(tái)。但是,它還將被綁定到IBM生產(chǎn)的其他應(yīng)用程序框架中。
deRoos將Spark稱為一項(xiàng)服務(wù)的云實(shí)現(xiàn)正在Bluemix上測(cè)試,Bluemix是一個(gè)基于開源云計(jì)算項(xiàng)目的云環(huán)境。他說,這是為了幫助開發(fā)人員在線混合和匹配不同的應(yīng)用程序。
deRoos總結(jié)道:“park.com非常適合機(jī)器學(xué)習(xí)應(yīng)用程序,這使得將機(jī)器學(xué)習(xí)功能集成到處理數(shù)據(jù)的Bluemix應(yīng)用程序中成為可能。”
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。