午夜精品久久久久久不卡,天天爽夜夜爽夜夜爽精品视频,午夜精品久久久久久久久久久久,天堂+中文+资源,天堂а√中文在线官网

  • 產(chǎn)品與服務(wù)矩陣
  • 資源中心
  • 關(guān)于我們

Alluxio李浩源:如何融合數(shù)據(jù)與內(nèi)存速度

易觀 2016-10-28 7582
10月28日上午,“2016易觀A10大數(shù)據(jù)應(yīng)用峰會”主論壇《大數(shù)據(jù)基礎(chǔ)框架設(shè)計-實時分析技術(shù)平臺洞察與實踐》,Alluxio創(chuàng)始人兼CEO 李浩源受邀出席,并發(fā)表了“如何融合數(shù)據(jù)以內(nèi)存的速度”的主題演講。

1028日上午,“2016易觀A10大數(shù)據(jù)應(yīng)用峰會”主論壇《大數(shù)據(jù)基礎(chǔ)框架設(shè)計-實時分析技術(shù)平臺洞察與實踐》,Alluxio創(chuàng)始人兼CEO 李浩源受邀出席,并發(fā)表了“如何融合數(shù)據(jù)與內(nèi)存的速度”的主題演講。

對于為什么要選擇Alluxio,李浩源表示:第一,使得不同的數(shù)據(jù)中心的數(shù)據(jù)擁有內(nèi)存級別的訪問速度;第二,把不同存儲數(shù)據(jù)虛擬化;第三,Scale-out架構(gòu);第四,目前主要提供的是文件系統(tǒng)API。

Alluxio 的特性在于:有新的數(shù)據(jù)源,可以很容易融合到Alluxio,使上層框架可以專注高效計算的創(chuàng)新,使下層框架可以專注更高效的存儲;性能:以內(nèi)存為核心的架構(gòu);方便:計算和存儲可伸縮。

以下是李浩源演講實錄:

李浩源:大家好!很高興再次回到北京。

我今天演講的題目是如何融合數(shù)據(jù)與內(nèi)存的速度,我是AlluxioCEO李浩源。

簡單介紹一下Alluxio,我在四年前在UC Berkeley AMPLab讀博士期間創(chuàng)造了這個項目。為什么做這個項目呢?2013年,AMPLab做下一代大數(shù)據(jù)處理架構(gòu)平臺Berkeley Data Analytics Stack (BDAS),在2013BDAS中有兩個部件已經(jīng)在工業(yè)界有一定的影響力,并且已經(jīng)開始慢慢的被更多的企業(yè)所采用,其中一個是數(shù)據(jù)處理引擎Spark,另外一個是數(shù)據(jù)中心的資源管理平臺Mesos。但是當時整個架構(gòu)中缺乏一個存儲層的解決方案,這是我們當時做項目的初衷。2012年末,我寫出了Alluxio的第一版,當時叫做Tachyon。第二年, 我們開源了Alluxio,使用Apache License 2.0。 2015年我們成立了公司,同時拿到了A16ZA輪投資。我們這個項目是一個開源項目,既然是開源項目就要談到開源項目的增長。

我們開源大數(shù)據(jù)生態(tài)系統(tǒng)中成長最快的項目,在三年的開源歷史中,這個圖顯示是300多人,目前是有400多人貢獻者在社區(qū)里,我這里誠摯邀請對開源社區(qū)貢獻有興趣的朋友加入到開源社區(qū)里,無論是應(yīng)用還是開發(fā)我們都歡迎。我們這個項目是以內(nèi)存的速度融合數(shù)據(jù),有很多不同的應(yīng)用場景,大數(shù)據(jù)就是其中之一。如果我們以大數(shù)據(jù)角度看這個問題首先來看大數(shù)據(jù)生態(tài)系統(tǒng)的演變歷史,目前的生態(tài)環(huán)境中有什么問題,在這個演變歷史中Alluxio解決什么問題,以及為整個生態(tài)系統(tǒng)帶來什么價值。十年前Google當時提出了兩篇論文, GFSMapReduce,之后業(yè)界其他公司一起創(chuàng)建了Hadoop這套系統(tǒng),當時的生態(tài)系統(tǒng)非常簡單,只有兩個部件,分別負責計算和存儲。隨著過去十年的高速發(fā)展,最主要的體現(xiàn)是不同的企業(yè)和機構(gòu)他們收集以及存儲越來越多的數(shù)據(jù),在收集和存儲越來越多數(shù)據(jù)的同時,他們也希望對這些數(shù)據(jù)做分析以帶來價值。

從此帶來的影響是什么呢?由于需要存儲更多的數(shù)據(jù),吸引了很多的存儲廠商,比如在美國有Google、亞馬遜或者微軟,在國內(nèi)有阿里巴巴、華為、百度等等,同時傳統(tǒng)的存儲廠商也越來越大力的投入以及挺入大數(shù)據(jù)存儲市場,比如EMC、IBMHPE,這些公司在這個市場都加大投入,這些對業(yè)界的影響是什么呢?在存儲角度來看,我們的客戶有更多的選擇,目前在市場來看,大約有多于30種不同的存儲方案,很多流行的存儲方案都是來自巨型的公司在進行背書。從計算層角度看這個問題,隨著發(fā)展,有很多很多計算框架,國內(nèi)有非常著名的麒麟,是計算框架中非常流行的一種,計算框架有通用的計算框架,比如Spark,以及各種各樣的計算框架,大約目前來看在業(yè)界中有比較重要的市場份額,或者是營業(yè)額的計算框架大約30多種,這是我們業(yè)界非常好的一個進展,對我們客戶來講帶來了很多各種各樣的選擇。

但進展的同時我們又有各種各樣的問題,其中最重要的一個問題是整個生態(tài)系統(tǒng)變得非常復(fù)雜,導(dǎo)致我們的客戶,特別是企業(yè)級客戶,如何來高效的簡易的使用各種各樣的方案,在一個型數(shù)據(jù)中心,或者是跨數(shù)據(jù)中心的平臺中有效使用不同的解決方案,是非常困難的一個問題。與此同時,由于各種各樣的存儲,這里的存儲并不一定是為這種分析所設(shè)計的方案,所以很多時候性能很差。

從大數(shù)據(jù)角度講,在這個大背景下我們引入了Alluxio系統(tǒng),把數(shù)據(jù)在不同存儲中進行融合,以內(nèi)存的速度提供給上層平臺。舉一個例子,從客戶角度來講,比如說你可以用Spark,或者是麒麟,各種各樣的計算框架,使用不同計算框架的同時,把Alluxio和這些計算框架在同樣的計算中心一起部署,如何來訪問數(shù)據(jù),如何來移動數(shù)據(jù),如何高效把數(shù)據(jù)放在該放的地方,提供最快速的IO給上層。你可以類比成什么呢?比如五年、十年前,當你還用PC的時候,在你的PC系統(tǒng)你可能有SSD或者HDD,可以是不同廠商生產(chǎn),在這種情況下,更復(fù)雜的情況,你可能還有不同的NFS,你的遠處文件系統(tǒng),比如NFS可能是微軟提供,也可能是其他提供的,但無論你用什么樣底層基礎(chǔ),對客戶來講非常簡單,你看到的只不過是文件夾。我們Alluxio所做的事情就是在一個數(shù)據(jù)中心環(huán)境中,或者是跨數(shù)據(jù)中心環(huán)境中,無論你是私有云、公有云還是混合云部署,你都可以把所有存儲看成Alluxio里的文件夾。比如你可以把亞馬遜的S3,或者阿里巴巴的OSS放在Alluxio文件夾使用,非常簡易,這是我們Alluxio提供的一個功能。

一句話講,Alluxio做的事情可以讓不同的計算框架以及不同的應(yīng)用不需要修改它的代碼的情況下,可以很容易很高效并且高速的訪問不同數(shù)據(jù)源中的數(shù)據(jù)。

我們講一下為什么大家用Alluxio,它不同的地方是什么。第一點,在目前這個時代有數(shù)據(jù)和存儲在一起,有數(shù)據(jù)和存儲分離,也有數(shù)據(jù)既在一起又分離的情況,但無論如何,從Alluxio部署角度來講,我們永遠是跟計算在一起的,但是我們同時又智能化的來移動數(shù)據(jù),來保證短期最近的數(shù)據(jù)是在離計算最近的地方,保證最高效的訪問。比如剛才郭總提到數(shù)據(jù)的時效性,在Alluxio部署里面很好的體現(xiàn)了這一點,我們有一個在財富排行榜中排前十名的客戶,這家客戶使用Alluxio,把他最熱的數(shù)據(jù)放在Alluxio里面,對他的數(shù)據(jù)分析帶來了5倍提升。

第二點,把不同存儲數(shù)據(jù)虛擬化,從客戶角度來講,如果把這些數(shù)據(jù)虛擬化帶來了未來架構(gòu)的保障,在未來架構(gòu)中,如果用Alluxio在中間,底層現(xiàn)在用一個系統(tǒng),將來你可以很容易的把底層換成一個更為高效的系統(tǒng)B,從這個角度講我們有非常大的優(yōu)勢在里面,并且我們有一些銀行客戶目前是這么一個使用方式。

第三點,我們是一個Scale-out架構(gòu),優(yōu)勢是Alluxio可以部署在5臺機器、50臺機器、或者5000臺機器,Alluxio都可以有很高效的性能提升。

最后一點,目前Alluxio主要提供的是文件系統(tǒng)API,全軟件解決方案,部署Alluxio不需要額外配置多余的硬件,你可以在現(xiàn)有環(huán)境中直接部署,可以為客戶直接帶來很多價值,同時沒有硬件額外的開銷。

下面講一下Alluxio給我們用戶帶來的價值是什么。第一是融合,無論你是有新的數(shù)據(jù),數(shù)據(jù)源,或者是有新的計算,你可以很容易的融合到這個平臺。在伯克利我的導(dǎo)師之一Ion Stoica,他是這么評價Alluxio的。他說Alluxio對于存儲來講就類似于在互聯(lián)網(wǎng)架構(gòu)中IP這一層對于互聯(lián)網(wǎng)的影響。什么意思呢?IP作為互聯(lián)網(wǎng)架構(gòu)中的一個中間的Narrow Wrist,起來的效果是可以讓上層和下層更加高速的獨立創(chuàng)新,上層創(chuàng)新的時候不需要關(guān)心下層所帶來的問題。Alluxio起到一樣的功能,把Alluxio放在中間,從上層廠商角度講,和Alluxio融合后不需要花費精力不同的存儲進行融合,從而把他的精力更多使用在如何使計算框架變得更加高效。與此同時,Alluxio對下層產(chǎn)生一樣的效果,對于存儲廠商,和Alluxio融合后,Alluxio和可以使得很多新的解決方案構(gòu)建在存儲平臺上,存儲廠商不需要快速跟進新的解決方案,從而把更大的精力花在如何讓他的存儲平臺更為有效,更為高效,節(jié)省客戶的開銷 。

第二個好處是性能,性能角度來講,由于Alluxio是內(nèi)存為核心的架構(gòu),并且我們的部署方式和很多計算平臺在一起,所以在使用Alluxio情況下,用戶很多情況下看到成倍的性能增長。我們一會兒有幾個具體的案例和大家分享。

最后一點是靈活,在使用Alluxio的情況下,無論增長存儲容量,或者是計算能力,用戶可以獨立的讓它們增長。在這個情況下一個直接的價值是節(jié)省整個架構(gòu)對 公司,或者是機構(gòu)帶來的開銷 。

Alluxio在全球有很多部署和合作伙伴,這里只是其中一小部分,有全球的互聯(lián)網(wǎng)廠商,比如百度、Google,從大的IT廠商,比如IBM或者華為,一個半月前在上海我們宣布了和華為聯(lián)合解決方案的推出。再比如原子碰撞中心、歐洲的CERN在使用Alluxio,美國的地理信息公司, ESRI在使用Alluxio,歐洲的電信運營商Swisscom也在用Alluxio。

在這個分享中,我們詳細講解了三個部署,一個是百度,一個是歐洲第二大商業(yè)銀行BARCLAYS,最后是國內(nèi)的去哪兒網(wǎng)。

百度這個部署案例中使用Alluxio來加速遠程數(shù)據(jù)IO,在具體部署中Alluxio上層使用的是Spark,Alluxio下層使用的是百度自己的文件系統(tǒng),這個系統(tǒng)在產(chǎn)品線中已跑了兩年,有200個節(jié)點部署,Alluxio管理了大概2PB數(shù)據(jù)空間。我們使用Alluxio層級化存儲管理,具體案例中百度的產(chǎn)品經(jīng)理以及分析師每天對這個系統(tǒng)做查詢,可以實時有效的為他們產(chǎn)品未來設(shè)計以及商業(yè)決定做出分析。百度的架構(gòu)師寫了一篇非常詳細的架構(gòu)分析,對比使用Alluxio前后,他們發(fā)現(xiàn)使用Alluxio對他們產(chǎn)品的解決方案帶來5-30倍的性能提升,與此同時,從根本上改變了這個解決方案用戶對于整個數(shù)據(jù)交互的使用方式。

第二個是BARCLAYS解決方案,BARCLAYSAlluxio在不同的應(yīng)用之間高效的分享數(shù)據(jù)。BarclaysTeradata中數(shù)據(jù)拿出來放在Alluxio中,用SparkAlluxio數(shù)據(jù)進行查詢和實時的機器學(xué)習(xí),機器學(xué)習(xí)結(jié)果給風險分析部門使用,讓他們更有效更快速的把新的結(jié)果應(yīng)用在風險分析中。這和郭總講的金融機構(gòu)使用的案例大致講是一樣的。BARCLAYS這個部門的首席架構(gòu)師對這個方案寫了一個特別詳細的架構(gòu)分析,在架構(gòu)分析中講解了他們的結(jié)果,原來由于在數(shù)據(jù)挪出要做ETL,目前把數(shù)據(jù)放在Alluxio里面,可以在不同Spark分析之中很容易的進行數(shù)據(jù)共享,導(dǎo)致了他的數(shù)據(jù)分析結(jié)果從小時級變成了秒級,這是對他們的一個質(zhì)的飛躍。

另外還有一個非常有意思的點,如果臺下有公司在歐洲有業(yè)務(wù)的話,歐洲數(shù)據(jù)保護法案非常嚴格,Alluxio可以滿足以前不能被數(shù)據(jù)保護的法案,有法規(guī)規(guī)定不可以把數(shù)據(jù)放到任何磁盤形式的系統(tǒng)之中,從這個角度來講,可以用Alluxio滿足歐洲產(chǎn)業(yè)對數(shù)據(jù)管理規(guī)定。我們跟一些其他的公司合作,他們在歐洲有數(shù)據(jù)分析需求,有類似的情況。

最后是去哪兒的案例。去哪兒用Alluxio來管理不同存儲中混合系統(tǒng)架構(gòu),管理兩個系統(tǒng),HDFSCeph,中的數(shù)據(jù),Alluxio上層同時使用Spark StreamingFlink做實時的機器分析,分析結(jié)果可以用來做他網(wǎng)站的廣告推薦,就像郭總開始講的,如果你買了一個手機,你之后不應(yīng)該展現(xiàn)其他的手機廣告,而是應(yīng)該展現(xiàn)手機配件廣告。把這個系統(tǒng)變成實時系統(tǒng)對他們的業(yè)務(wù)會有極大的提升。與此同時,他們產(chǎn)品線現(xiàn)在有一年多時間了,他們非常喜歡融合的概念,可以在不同的系統(tǒng)中讀數(shù)據(jù),與此同時,在性能上也有很大的提升。

最后講一下昨天我們的一個產(chǎn)品發(fā)布,TechCrunchForbes都做了報道。首先Alluxio社區(qū)版,包括開源Alluxio以及Alluxio Manager,它的價值是使Alluxio更加簡單的部署使用以及監(jiān)測,社區(qū)版可以免費下載使用。與此同時,為了滿足我們在企業(yè)客戶,特別是世界500強,或者是全球2000客戶的需求,我們也提出了Alluxio企業(yè)版,企業(yè)版中有更多的企業(yè)級功能,比如安全,數(shù)據(jù)多備份等等,與此同時,Alluxio公司還對Alluxio企業(yè)版客戶提供企業(yè)級的支持保障。希望這些產(chǎn)品可以滿足不同客戶級別的需求,從而使得更多公司機構(gòu)可以得到Alluxio技術(shù)所帶來的價值。

我今天的演講就到這里,謝謝大家。