Azure上CDW提供經(jīng)濟高效且可擴展的分析Azure上CDW提供經(jīng)濟高效且可擴展的分析Cloudera數(shù)據(jù)倉庫(CDW)服務(wù)是一種托管數(shù)據(jù)倉庫,可在容器化體系結(jié)構(gòu)上運行Cloudera的強大引擎。它是新Cloudera數(shù)據(jù)平臺或CDP的一部分,該平臺已于今年年初在Microsoft Azure上啟用。CDW服務(wù)可讓您......
Cloudera數(shù)據(jù)倉庫(CDW)服務(wù)是一種托管數(shù)據(jù)倉庫,可在容器化體系結(jié)構(gòu)上運行Cloudera的強大引擎。它是新Cloudera數(shù)據(jù)平臺或CDP的一部分,該平臺已于今年年初在Microsoft Azure上啟用。CDW服務(wù)可讓您滿足SLA,在零摩擦的情況下使用新的用例并最大程度地降低成本。今天,我們很高興宣布CDW在Microsoft Azure上已全面上市。該服務(wù)可通過Azure市場作為CDP的一部分使用。
與我們的客戶討論數(shù)據(jù)倉庫時,經(jīng)常會出現(xiàn)三種情況。企業(yè)永遠(yuǎn)無法盡快獲得所需的東西。通常會錯過SLA,尤其是隨著用戶數(shù)量和用例的增長。而且,即使不是完全強制性的命令,也存在向公共云遷移的壓力。
盡管有許多因素導(dǎo)致了這些情況,但是對于如何處理它只有一個答案:CDW。這篇文章描述了我們的客戶所面對的代表示例,并解釋了CDW如何解決這些問題。它還著眼于該解決方案中幾個Azure服務(wù)(例如Azure Kubernetes服務(wù)和ADLS Gen2)所起的關(guān)鍵作用。
我們將檢查一家制造用于飛機的設(shè)備的公司。像許多企業(yè)一樣,有大量的分析師在研究精選的數(shù)據(jù),業(yè)務(wù)線(LOB)經(jīng)理專注于卓越的運營,而數(shù)據(jù)科學(xué)家則在新數(shù)據(jù)集中尋找競爭優(yōu)勢。但是,與我們的許多客戶一樣,也存在挑戰(zhàn),如以下四個主角所示:
1.Ramesh的業(yè)務(wù)分析人員團隊可生成運行業(yè)務(wù)的報告。但是隨著團隊的成長,倉庫滿足SLA和保持預(yù)算的能力下降了。
a)CDW為Ramesh提供了經(jīng)濟高效、可擴展的報告和儀表板,因此它們的SLA不會被錯過。
2.Kelly是一位數(shù)據(jù)架構(gòu)師,需要運行臨時探索工作負(fù)載以進行活動分析。但是,由于存在與SLA綁定的工作負(fù)載引起爭用的風(fēng)險,因此不允許她使用倉庫。
a)CDW使Kelly可以處理倉庫中的數(shù)據(jù),而不會影響其他工作負(fù)載。
3.數(shù)據(jù)科學(xué)家奧利維亞(Olivia)無法在倉庫中獲得探索新供應(yīng)鏈數(shù)據(jù)的能力。因此,錯過了進行優(yōu)化的機會。
a)CDW為Olivia提供了無限的計算資源,可以在幾分鐘之內(nèi)將對象存儲中的任何數(shù)據(jù)扔掉。
4.Mariana是一位運營經(jīng)理,需要實時查看大容量傳感器數(shù)據(jù)以及將其與客戶體驗數(shù)據(jù)結(jié)合在一起的能力。當(dāng)前的倉庫無法處理這種數(shù)量或多樣性,因此Mariana必須使用寶貴的預(yù)算來建造另一個筒倉。
a)CDW為Mariana提供了一個單一平臺,該平臺可以執(zhí)行傳統(tǒng)的數(shù)據(jù)倉庫以及需要不同技術(shù)的新用例……同時保留每個數(shù)據(jù)集的一個副本并利用共享的元數(shù)據(jù)和安全性。
在下面的部分中,我們將進一步解釋CDW和Azure如何提供這些功能。
能力1–高效、可伸縮的報表和儀表板數(shù)據(jù)管理
Ramesh和他的業(yè)務(wù)分析團隊全天不間斷地發(fā)布報告。該業(yè)務(wù)基于他的團隊提供的洞察力,尤其是與客戶情緒有關(guān)的洞察力,鑒于最近的差旅支出下降,這一點至關(guān)重要。因此,他們不能錯過SLA,否則企業(yè)會盲目發(fā)展。無論數(shù)據(jù)量和分析師人數(shù)在增長,即使預(yù)算在縮減,也必須交付報告。
每當(dāng)沒有查詢時,CDW虛擬倉庫(VW)中的計算資源將保持暫停狀態(tài),不會產(chǎn)生任何成本。Ramesh上班后的第一個查詢在早上到達(dá)時,大眾會自動啟動。如果由于Ramesh的許多同事都在早上晚些時候上線而導(dǎo)致查詢負(fù)載稍后增加到飽和點,則VW將檢測到此情況并提供更多計算資源來處理負(fù)載,同時保持性能。這稱為自動縮放。一旦負(fù)載下降到較低的水平(他的同事們都在沒有他的情況下共進午餐),那么這些額外的計算資源就被釋放了,因此不再產(chǎn)生成本。最后,在Ramesh最終離開工作并且查詢?nèi)拷Y(jié)束的一天結(jié)束時,大眾汽車自動暫停自身,再次下降為免費狀態(tài)。
CDW可以使用Azure Kubernetes服務(wù)(AKS)快速提供計算Pod,并在不再需要時釋放它們,從而提供此按需付費的功能。這些Pod使用StandardE16v3計算實例大?。?6 vCPU,128 GiB RAM,400 GiB本地SSD)。AKS最終在后臺使用VM縮放集來啟用和控制自動縮放。
一旦Ramesh的團隊運行了查詢,他們就可以通過服務(wù)中內(nèi)置的三個緩存級別在很大程度上滿足其SLA:
數(shù)據(jù)緩存–首次從ADLS讀取數(shù)據(jù)時,會將其緩存在使用該數(shù)據(jù)的計算節(jié)點上。隨后需要相同數(shù)據(jù)的查詢從本地緩存(而不是ADLS)獲取數(shù)據(jù)。Hive LLAP和Impala VW均支持此緩存類型。
結(jié)果集緩存–將結(jié)果發(fā)快遞回客戶端后,結(jié)果集也將緩存在HiveServer2節(jié)點上的存儲中。如果再次到達(dá)完全相同的查詢(這在儀表板和BI用例中很常見),則直接從HS2緩存中提供結(jié)果。當(dāng)前,只有Hive LLAP VW支持此緩存類型。
物化視圖–您可以定義物化視圖(MV)的結(jié)構(gòu)和內(nèi)容,Hive將從基表中選擇數(shù)據(jù)填充其中。對于后續(xù)訪問基表的查詢,如果Hive檢測到可以從MV中提供數(shù)據(jù),則它將透明地重寫查詢以使用該查詢,從而避免了再次掃描基表,聯(lián)接數(shù)據(jù),對其進行匯總的需求等等。目前僅Hive LLAP大眾汽車支持此功能。
通過這種級別的智能和性能優(yōu)化,Ramesh和團隊可以隨著數(shù)據(jù)量和業(yè)務(wù)需求的增長而增長,而僅需支付實際工作所需的資源。
能力2–臨時探索以補充SLA約束的工作負(fù)載
首席營銷官要求數(shù)據(jù)架構(gòu)師Kelly提供量化近期營銷活動影響的指標(biāo)。倉庫具有所需的數(shù)據(jù),但也正在滿負(fù)荷運行。凱利(Kelly)將需要使用多種查詢類型來探索數(shù)據(jù),并且不確定需要多長時間或她需要多少CPU和內(nèi)存。在這樣模糊的要求下,由于存在影響SLA約束的操作工作負(fù)載的風(fēng)險,IT不允許她在數(shù)據(jù)倉庫上執(zhí)行此工作。她的查詢可能會耗盡CPU資源,并從緩存中逐出所有熱數(shù)據(jù)。因此,CMO沒有度量標(biāo)準(zhǔn)來幫助理解其營銷投資的影響。
借助CDW,Kelly可以擁有自己的計算環(huán)境,該環(huán)境可以查詢倉庫數(shù)據(jù),但與其他受SLA約束的工作負(fù)載完全隔離。CDW可以通過與存儲和計算層分開管理數(shù)據(jù)上下文(表定義,授權(quán)策略,元數(shù)據(jù))來做到這一點。這樣,多個計算環(huán)境都可以共享同一數(shù)據(jù)上下文。Cloudera共享數(shù)據(jù)體驗(SDX)是為此托管上下文提供的術(shù)語。
SDX的關(guān)鍵啟用功能是能夠?qū)⒃獢?shù)據(jù)和安全規(guī)則可靠地存儲在持久數(shù)據(jù)庫中。為此,我們使用Gen5 4 vCore,內(nèi)存優(yōu)化選項將Azure數(shù)據(jù)庫用于PostgreSQL。這種托管的Postgres服務(wù)易于集成,高度可用且管理起來很簡單。使用此作為元數(shù)據(jù)和其他持久狀態(tài)的單一事實來源,CDW可以安全地并行運行您的工作負(fù)載所需的多個計算環(huán)境。
當(dāng)在這種情況下需要計算資源時,CDW提供的另一種方法是將您的工作負(fù)載從本地CDH或HDP群集擴展到在公共云中運行的CDP。在這種情況下,工作負(fù)載管理器工具用于分析您的內(nèi)部工作負(fù)載,確定適合突發(fā)的候選工作負(fù)載(在這種情況下,臨時探索查詢會干擾SLA綁定查詢),然后將數(shù)據(jù)和元數(shù)據(jù)復(fù)制到CDP。現(xiàn)在可以在您的云環(huán)境中安全地運行工作負(fù)載。如果這樣做,您可能希望使用Microsoft ExpressRoute來確保良好的性能和一致的數(shù)據(jù)移動延遲。
功能3–快速配置以跟上業(yè)務(wù)速度
數(shù)據(jù)科學(xué)家奧利維亞(Olivia)偶爾需要使用尚未在倉庫中的新數(shù)據(jù)文件來檢驗供應(yīng)鏈優(yōu)化的假設(shè)。但是中央IT部門從來沒有計劃過這樣的突發(fā)性工作負(fù)載,也沒有資源去做一個新的ETL項目,以將這些新數(shù)據(jù)(其價值尚未得到驗證)整合到倉庫中。這導(dǎo)致錯過了降低供應(yīng)鏈成本并降低其風(fēng)險的機會。
如果使用CDW,Olivia將能夠簡單地啟動一個新的Hive LLAP VW,該過程只需幾分鐘,然后在數(shù)據(jù)文件上創(chuàng)建一個外部表定義,以便她可以開始查詢它們。使用Hive,您可以本地查詢半結(jié)構(gòu)化文本文件和定界文件(例如CSV或TSV)。有標(biāo)準(zhǔn)的開源庫可查詢JSON以及其他文件格式。而且,您始終可以為自定義格式定義自己的SerializerDeserializer(SerDe)。即使使用這些基本文件格式,Hive仍將數(shù)據(jù)轉(zhuǎn)換為其列式內(nèi)存格式,以從緩存和IO效率優(yōu)化中受益。
快速提供對對象存儲中任意數(shù)據(jù)的查詢功能的這種功能可提供極大的靈活性和靈活性。您可以快速探索新數(shù)據(jù)和使用新用例,以跟上業(yè)務(wù)發(fā)展的速度。但是,由于可擴展的高性能ADLS Gen2服務(wù),這才有可能。在Hadoop的ABFS連接器提供了這個關(guān)鍵的結(jié)合點,橋接已存儲在ADLS與第二代在Cloudera公司提供分析功能的生態(tài)系統(tǒng)中的企業(yè)數(shù)據(jù)。
功能4–利用共享資源的新用例的多模式分析
制造LOB運營經(jīng)理Mariana受其首席運營官的委托,通過避免計劃外的設(shè)備停機時間來提高產(chǎn)量。她估計,這將需要每秒存儲100萬個傳感器讀數(shù),保留15個月的數(shù)據(jù)以適應(yīng)歷史趨勢分析,對數(shù)據(jù)運行任意SQL的能力以及訪問原始數(shù)據(jù)和聚合的需求。簡而言之,她需要一個高度可擴展的實時數(shù)據(jù)倉庫,該倉庫可提供時間序列功能而又不會造成資金損失。
當(dāng)前的數(shù)據(jù)倉庫團隊無法接近這些性能要求,并且他們的團隊之一使用的傳統(tǒng)時間序列數(shù)據(jù)庫無法處理如此長的歷史記錄或執(zhí)行任意SQL。借助CDP平臺,Mariana可以在一小時內(nèi)站起來支撐該應(yīng)用程序的基礎(chǔ)架構(gòu),在這種情況下,將使用具有標(biāo)準(zhǔn)本地冗余SSD存儲的Azure Compute VM。Cloudera的時間序列產(chǎn)品主要依賴于Apache Kudu存儲引擎和Apache Impala進行SQL查詢??梢允褂肁pache NiFi從Azure Event Hub或Kafka或許多其他受支持的源之一中提取數(shù)據(jù)。強大的Cloudera引擎與強大的Azure基礎(chǔ)架構(gòu)的結(jié)合意味著可以滿足Mariana的雄心勃勃的要求。
她為自己的首席運營官做得非常出色,以至于首席執(zhí)行官注意到了這一點,并要求她現(xiàn)在通過制造更可靠的飛機發(fā)動機來提高客戶(即飛機乘客)的滿意度。但是倉庫無法實時了解工廠車間中運行的機器,因此沒有簡單的方法可以將數(shù)據(jù)與客戶體驗數(shù)據(jù)集成在一起并進行關(guān)聯(lián)。因此,她不知道在工廠要進行哪些調(diào)整以提高質(zhì)量。
借助Cloudera,Mariana可以運行將時間序列應(yīng)用程序中的數(shù)據(jù)與倉庫中的其他數(shù)據(jù)結(jié)合起來的查詢,以得出制造過程與客戶體驗之間的關(guān)聯(lián)(如航班延誤所示)。如上所述,這是通過SDX啟用的,但是在這種情況下,由于沒有允許Mariana查看客戶數(shù)據(jù)中的個人身份信息(PII),因此存在更高的安全級別。因為CDP與Azure Active Directory集成在一起以獲取用戶的身份和組成員身份,所以它可以使用Apache Ranger強制實施復(fù)雜的基于角色或基于屬性的訪問控制,以在Mariana訪問數(shù)據(jù)時動態(tài)屏蔽所有PII數(shù)據(jù)。她現(xiàn)在可以安全地完成自己的工作,并通過盡自己的職責(zé)來提高客戶滿意度而使CEO高興。
使用CDW for Azure改變您的數(shù)據(jù)倉庫體驗
借助在Azure上運行的Cloudera Data Warehouse,您可以經(jīng)濟高效地擴展已整理數(shù)據(jù)的報告和儀表板,而無需等待傳統(tǒng)上較長的配置周期。您可以在與SLA綁定的工作負(fù)載之上啟用即席探索,而不會引起資源爭用而丟失那些協(xié)議的風(fēng)險。您可以根據(jù)需要快速配置資源,因此您總是對任何需要進行任何形式分析的業(yè)務(wù)請求都說“是”,并且可以利用共享資源充分利用針對新用例的更廣泛的多模式分析范圍。
特別聲明:以上文章內(nèi)容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部