導讀:大數(shù)據(jù)分析是獲得價值的關鍵所在,你對待數(shù)據(jù)的方式與傳統(tǒng)數(shù)據(jù)倉庫時代不同-關于利用大數(shù)據(jù)的思維方式和文化已經(jīng)在醞釀。
什么是數(shù)據(jù)湖,它是什么工作原理?它又是如何作用于大數(shù)據(jù)分析的?它們的驅(qū)動因素和優(yōu)缺點又是什么?
一般情況下,要使大數(shù)據(jù)項目成功,至少需要兩件事:其一,知道需要什么可操作的數(shù)據(jù);其二,獲得正確的數(shù)據(jù)來進行分析和利用,以實現(xiàn)預期目標。
然而,有很多不同形式的數(shù)據(jù)有著形色各異的來源,并且,這種數(shù)據(jù)量,或者多樣性等會隨著時間的推移而呈指數(shù)型增長。
數(shù)據(jù)湖是在快速增長和日益非結(jié)構(gòu)化的大數(shù)據(jù)領域中結(jié)束數(shù)據(jù)孤島的一種方式。
在未來幾年,工業(yè)物聯(lián)網(wǎng)將快速增長。這種增長,會出現(xiàn)更多或更優(yōu)質(zhì)的數(shù)據(jù):數(shù)據(jù)在整個物聯(lián)網(wǎng)體系中的有著舉足輕重的地位,其作用是獲得更精確的洞察力,推動相關行動和運營,以達成期望目標。為了進行有目的大數(shù)據(jù)分析,為智能應用程序提供智能數(shù)據(jù),也就意味著不可避免地需使用人工智能來分析所有這些數(shù)據(jù)。
數(shù)據(jù)湖是將所有不同種類數(shù)據(jù)收集、存儲、分析并轉(zhuǎn)化為洞察力和決策的地方,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
傳統(tǒng)上,數(shù)據(jù)存儲于整個組織(內(nèi)部數(shù)據(jù))及其運作的生態(tài)系統(tǒng)(外部數(shù)據(jù))中。這是一個挑戰(zhàn):如果數(shù)據(jù)在云內(nèi)云外無處不在,那就不能將有效的數(shù)據(jù)組合在一個大數(shù)據(jù)項目中。
作為一個概念,數(shù)據(jù)湖是由Pentaho的首席技術官James Dixon推廣的,并將其視為是比數(shù)據(jù)集或數(shù)據(jù)中心更適合于大數(shù)據(jù)的存儲庫。
以下是Dixon于2011年在博客上對數(shù)據(jù)湖的定義:“如果將數(shù)據(jù)中心視為商店的經(jīng)過清潔、包裝和結(jié)構(gòu)化的瓶裝水,那數(shù)據(jù)湖便是一個更自然的大水體。數(shù)據(jù)湖中的內(nèi)容從源頭流入湖中,用戶可以在湖中進行檢查、潛水或采集樣本“。
數(shù)據(jù)湖是具有分析和行動目的存儲庫。
在本質(zhì)上,大數(shù)據(jù)湖是一個存儲庫,包含大量原始的、原生格式的數(shù)據(jù)。
傳統(tǒng)的數(shù)據(jù)管理方法不適合處理大數(shù)據(jù)或進行大數(shù)據(jù)分析。通過大數(shù)據(jù)分析,可找到不同數(shù)據(jù)集之間的關聯(lián),這些數(shù)據(jù)集需要合并才能實現(xiàn)我們的業(yè)務目標。如果這些數(shù)據(jù)集位于完全不同的系統(tǒng)中,那幾乎是不可能實現(xiàn)的。
比如,我們可以將來自一個來源的客戶數(shù)據(jù)與其他來源的數(shù)據(jù),甚至似乎不相關的數(shù)據(jù)結(jié)合起來(例如,交通數(shù)據(jù)、天氣數(shù)據(jù)等似乎與我們的業(yè)務無關的客戶數(shù)據(jù))。并采取相應的措施,以提高客戶體驗,提出新的服務,或提高銷售額。
自下而上的數(shù)據(jù)分析:攝入數(shù)據(jù)以填滿數(shù)據(jù)湖
數(shù)據(jù)分析和數(shù)據(jù)湖有什么關系?大數(shù)據(jù)湖是分析的兩種信息管理方法之一。
第一個是自上而下的數(shù)據(jù)倉庫,第二個是自下而上的數(shù)據(jù)湖。為了讓他更直觀,讓我們想象一個真正的湖的形象。湖不會平白無故的被填滿,通常有河流或較小的溪流給它帶來水。
數(shù)據(jù)湖是專為大數(shù)據(jù)分析而設計的,以解決大數(shù)據(jù)中的數(shù)據(jù)孤島問題。
在數(shù)據(jù)湖中也會發(fā)生同樣的情況。這也被稱為數(shù)據(jù)的攝入,不論其來源或結(jié)構(gòu)如何。通過上述數(shù)據(jù)分析,我們需收集實現(xiàn)目標所需的所有數(shù)據(jù)。
這些“數(shù)據(jù)流”有幾種格式:結(jié)構(gòu)化數(shù)據(jù)(簡單地說,來自傳統(tǒng)關系數(shù)據(jù)庫甚至電子表格的數(shù)據(jù):行和列), 非結(jié)構(gòu)化數(shù)據(jù) (社交、視頻、電子郵件、短信……),來自各種日志的數(shù)據(jù)(如網(wǎng)志、點擊流分析……)、機器對機、物聯(lián)網(wǎng)和傳感器數(shù)據(jù),您可以將其命名為日志和XML,也稱為半結(jié)構(gòu)化數(shù)據(jù)。
它們還涉及從全局的角度來看各種類型的數(shù)據(jù):客戶數(shù)據(jù)、業(yè)務應用程序的數(shù)據(jù)、銷售數(shù)據(jù)等(通過API輸入數(shù)據(jù)湖)。顯然,我們將在大多數(shù)時候需利用外部數(shù)據(jù)以實現(xiàn)我們的目標。
數(shù)據(jù)湖的使用:存儲、分析和可視化
所有這些數(shù)據(jù),只要它有意義,就會存儲在數(shù)據(jù)湖中,同時它也會通過應用程序接口協(xié)議API,或從各種應用程序和系統(tǒng)中通過批處理過程不斷輸入數(shù)據(jù)。
存儲維度是第二部分(攝入是第一部分)。在大數(shù)據(jù)湖中,這實際上意味著沒有數(shù)據(jù)孤島。因此,這意味著我們即將開始一項有趣的工作:大數(shù)據(jù)分析。
要知道,我們合并的數(shù)據(jù)集有時看起來是無關的,例如,我們可以使用人工智能來檢測購買行為和天氣狀況之間的模式,來自一個來源的客戶數(shù)據(jù)和另一個來源的客戶數(shù)據(jù),交通數(shù)據(jù)和污染數(shù)據(jù)之間的模式,這種模式不勝枚舉。我們能用這些模式做什么?正如你所能想象的那樣,在現(xiàn)實生活中,大量的大數(shù)據(jù)使用示例表明,這就是你的業(yè)務或其他目標發(fā)揮作用的地方。
顯然,光是分析是不夠的。你還需對所分析的東西進行想象、理解和行動。正如EMC關于數(shù)據(jù)湖如何工作的信息圖表所示:流出的水是經(jīng)過分析的數(shù)據(jù),然后會采取相關的行動,進而產(chǎn)生商業(yè)洞察力。
為什么是數(shù)據(jù)湖?
如前所述,傳統(tǒng)上有兩種分析的信息管理方法。為什么數(shù)據(jù)湖(自下而上的方法)在數(shù)據(jù)分析中很受歡迎?
原因有很多。首先,重要的是要理解我們對數(shù)據(jù)湖的看法并不完全正確,它不僅僅是一些自下而上的大混亂數(shù)據(jù)沼澤。其中涉及到相當多的技術,協(xié)議等等。要妥善利用溪流進入湖中的圖像:在水真正進入湖中之前,就已經(jīng)安裝了過濾器。
歷史遺留數(shù)據(jù)體系結(jié)構(gòu)的挑戰(zhàn)
數(shù)據(jù)湖更受歡迎的一部分原因是歷史原因。
傳統(tǒng)的數(shù)據(jù)系統(tǒng)并不是那么開放,如果想要集成、添加和混合數(shù)據(jù)以進行分析和操作的話,也不是很容易。傳統(tǒng)數(shù)據(jù)架構(gòu)的分析也不那么精確,成本也不低(需要額外的工具,取決于軟件)。此外,它們的構(gòu)建沒有考慮到我們通常在大數(shù)據(jù)中的所有新的和正在出現(xiàn)的(外部)數(shù)據(jù)源。
更快的大數(shù)據(jù)分析能力
使用數(shù)據(jù)湖的另一個重要原因是大數(shù)據(jù)分析可以更快地完成。
事實上數(shù)據(jù)湖是為大數(shù)據(jù)分析而設計的,更重要的是,它是為基于實時分析的實時操作而設計的。數(shù)據(jù)湖適合以一致的方式利用大量數(shù)據(jù),并使用算法驅(qū)動實時分析。
混合和匯聚數(shù)據(jù):一個數(shù)據(jù)湖中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)
數(shù)據(jù)湖還有一個優(yōu)點是,可以獲取、融合、集成和聚合所有類型的數(shù)據(jù),而不論其來源和格式如何。
Hadoop是數(shù)據(jù)湖體系結(jié)構(gòu)之一,它還可以處理主要數(shù)據(jù)塊之上的結(jié)構(gòu)化數(shù)據(jù),也包括來自社會數(shù)據(jù)、日志等非結(jié)構(gòu)化數(shù)據(jù)。順便提一句:非結(jié)構(gòu)化數(shù)據(jù)是所有數(shù)據(jù)中增長最快的形式(即使結(jié)構(gòu)化數(shù)據(jù)也在不斷增長),預計將達到所有數(shù)據(jù)的90%。
將數(shù)據(jù)分析移到數(shù)據(jù)湖和邊緣
還有一個事實是,來回移動大型數(shù)據(jù)集并不是明智的做法。
有了大數(shù)據(jù)湖,應用程序會更接近于數(shù)據(jù)的所在。從這個意義上講,你可以看到應用程序移動到邊緣,而不是存儲庫中心,即以更快的速度移動并減輕網(wǎng)絡等方面的負擔。這是霧計算的精髓所在,它是工業(yè)4.0和工業(yè)互聯(lián)網(wǎng)背景下,邊緣計算在數(shù)據(jù)分析領域的最新應用。
數(shù)據(jù)湖的靈活性隨用戶的需要增長而擴展
數(shù)據(jù)湖具有高度的可伸縮性和靈活性。這不需要過多的闡述,系統(tǒng)和進程可以很容易地進行縮放,以處理越來越多的數(shù)據(jù)。
節(jié)約企業(yè)數(shù)據(jù)倉庫資源
最后一個優(yōu)點是,正如上面來自PwC的說明所示,數(shù)據(jù)湖可以作為數(shù)據(jù)倉庫(EDW)的中轉(zhuǎn)區(qū)域。
然后,它僅用于將相關數(shù)據(jù)傳遞到倉庫,從而節(jié)省EDW資源。
數(shù)據(jù)湖的挑戰(zhàn)、風險和演變
大數(shù)據(jù)湖有諸多的好處,同時,也有風險和挑戰(zhàn)需應對。
如果沒有正確的戰(zhàn)略設計,并考慮到必要的目標,數(shù)據(jù)湖可能成為數(shù)據(jù)沼澤。這也是為什么企業(yè)從非常傳統(tǒng)的數(shù)據(jù)湖方法轉(zhuǎn)向面向目標和業(yè)務導向的方法的原因。
顯然,應該從業(yè)務驅(qū)動和戰(zhàn)略方針著手來處理數(shù)據(jù)湖。然而,傳統(tǒng)上,這些數(shù)據(jù)往往是從不斷上升的數(shù)據(jù)量角度和最終所有數(shù)據(jù)都具有潛在價值的觀點來看待的。
雖然這個價值確實是有潛力的,但相當多的公司表現(xiàn)得像數(shù)據(jù)囤積者。此外,公司是否需要一個數(shù)據(jù)湖,如果需要,是否可以從數(shù)據(jù)湖中獲得價值。
Gartner2015年的一份報告中顯示,一些公司的Hadoop((數(shù)據(jù)湖架構(gòu)的領先者)是過猶不及的,技術上的差距是阻礙發(fā)展的主要原因。
大數(shù)據(jù)湖的規(guī)模
由于大數(shù)據(jù)量和大數(shù)據(jù)使用量不斷增長,大數(shù)據(jù)規(guī)劃的廣度、深度和包容性都在增加,因此數(shù)據(jù)湖的大小顯然也在不斷增長。
一篇Dimensional Research2018年大數(shù)據(jù)趨勢和挑戰(zhàn)報告的博客文章指出,平均數(shù)據(jù)湖大小超過100太字節(jié)的組織比例從2017年的36%增長到2018年的44%( 一年內(nèi)增加22%)。這種趨勢只會持續(xù)下去,而且是大數(shù)據(jù)處理向云轉(zhuǎn)變的眾多驅(qū)動因素之一。
然而,難題依然存在:如何從所有這些數(shù)據(jù)中獲取價值。決策和行動是市場如何發(fā)展的關鍵驅(qū)動力。
確保數(shù)據(jù)湖不會變成數(shù)據(jù)沼澤
讓我們更深入地研究這些數(shù)據(jù)沼澤。如前所述,在數(shù)據(jù)湖的早期,重點是大數(shù)據(jù)的容量方面,許多企業(yè)實際上使用數(shù)據(jù)湖作為轉(zhuǎn)儲數(shù)據(jù)的地方。
這導致了數(shù)據(jù)沼澤的現(xiàn)象,需采取適當?shù)姆椒ū3謹?shù)據(jù)湖的清潔。
直到今天,仍然聽到一些組織提出常規(guī)性的問題,比如:“我應該用一個數(shù)據(jù)湖來替換我的數(shù)據(jù)中心嗎?”。數(shù)據(jù)湖經(jīng)常與數(shù)據(jù)中心相比較,雖然理解這些差異很重要,但問題是使用什么,什么時候使用并不是重點,正如咨詢師所言,你真正需要的是什么,要視情況而定。
我們的旨在通過數(shù)據(jù)倉庫、數(shù)據(jù)分析和商業(yè)智能環(huán)境來解決它們所適應的商業(yè)智能環(huán)境的問題。
· 數(shù)據(jù)可實現(xiàn)什么;
· 如何從這些數(shù)據(jù)中獲得更多的價值;
· 通過高級分析將數(shù)據(jù)貨幣化的用例有哪些;
· 我們需要什么技能;
· 我們的業(yè)務是如何由數(shù)據(jù)驅(qū)動的;
· 我們今天的處境(包括技能和文化)
· 在法規(guī)范圍內(nèi),我們需要考慮到哪些有關敏感數(shù)據(jù)的問題;
· 。。。
當數(shù)據(jù)湖的數(shù)據(jù)情況變得清晰無誤時,就不難確保它不會變成一個數(shù)據(jù)沼澤。這種討論已經(jīng)進行了很長時間,數(shù)據(jù)湖需要更多的策略和關注。
改變數(shù)據(jù)湖的要素:云、分析、價值和AI/ML
當然,數(shù)據(jù)湖也不像以前所觸及的那樣了。在早期,數(shù)據(jù)湖本質(zhì)上是添加Hadoop,并保留所有現(xiàn)有的內(nèi)容,而現(xiàn)在,我們可以更多地使用云中的數(shù)據(jù)。
最初,一個數(shù)據(jù)湖是給那些有技能和能力的用戶使用:找到他們想要的數(shù)據(jù),然后能夠使用模式在讀技術來處理這個問題。幸運的是,SQL正在進入數(shù)據(jù)湖,我們開始學習如何對其中的不同島嶼建模,讓用戶直接訪問數(shù)據(jù)湖中的數(shù)據(jù)。
云的增長速度和它在業(yè)務中總體增長速度一樣快。很明顯,數(shù)據(jù)湖的未來意味著云,盡管某些行業(yè)也會有例外,其中包括監(jiān)管問題,以及傳統(tǒng)上對公眾云采取更為謹慎的做法。
一些企業(yè)顯然也從過去所犯的錯誤中吸取了教訓,最后,隨著人工智能和機器學習變得更加重要,重點更多的放在結(jié)果和價值上,以及對近實時分析、高級分析和可視化的需求,人們更加關注結(jié)果和價值。
我們還看到數(shù)據(jù)湖向商業(yè)智能解決方案轉(zhuǎn)變。簡單地總結(jié)一下:數(shù)據(jù)湖景觀發(fā)展迅速,其本質(zhì)仍然是將數(shù)據(jù)轉(zhuǎn)化為價值和更好地實現(xiàn)這一目標的手段,技術前沿的大量趨勢和經(jīng)驗教訓,使得我們很難將數(shù)據(jù)湖的過去與現(xiàn)在進行比較,更不用說未來了。許多組織表示,它們計劃部署一個數(shù)據(jù)湖,并轉(zhuǎn)向云,這一未來看上去相當光明。
要知道,當數(shù)據(jù)湖變得流行時,大數(shù)據(jù)仍然是一個熱門詞,至少大數(shù)據(jù)已經(jīng)變得無所不在了。大數(shù)據(jù)就是數(shù)據(jù),問題是如何處理它。總的來說,數(shù)據(jù)的成熟度已經(jīng)提高,新一代的專家知道,大數(shù)據(jù)分析是獲得價值的關鍵所在,你對待數(shù)據(jù)的方式與傳統(tǒng)數(shù)據(jù)倉庫時代不同-關于利用大數(shù)據(jù)的思維方式和文化已經(jīng)在醞釀。