AWS 宣布推出 AWS Glue DataBrew
西雅圖--今天,Amazon.com, Inc. (NASDAQ:AMZN) 旗下公司 Amazon Web Services, Inc. (AWS) 宣布全面推出 AWS Glue DataBrew,這是一種新的可視化數(shù)據(jù)準(zhǔn)備工具,可為客戶提供支持無需編寫代碼即可清理和規(guī)范化數(shù)據(jù)。自 2016 年以來,數(shù)據(jù)工程師一直使用 AWS Glue 來創(chuàng)建、運(yùn)行和監(jiān)控提取、轉(zhuǎn)換和加載 (ETL) 作業(yè)。 AWS Glue 提供基于代碼和可視化界面,并為客戶顯著簡(jiǎn)化了在云中提取、編排和加載數(shù)據(jù)的過程。數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家想要一種更簡(jiǎn)單的方法來清理和轉(zhuǎn)換這些數(shù)據(jù),這就是 DataBrew 提供的服務(wù),該服務(wù)允許直接從 AWS 數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)庫進(jìn)行數(shù)據(jù)探索和實(shí)驗(yàn),而無需編寫代碼。 AWS Glue DataBrew 為客戶提供超過 250 種預(yù)構(gòu)建的轉(zhuǎn)換,以自動(dòng)執(zhí)行數(shù)據(jù)準(zhǔn)備任務(wù)(例如過濾異常、標(biāo)準(zhǔn)化格式和更正無效值),否則這些任務(wù)需要數(shù)天或數(shù)周才能編寫手動(dòng)編碼的轉(zhuǎn)換。準(zhǔn)備好數(shù)據(jù)后,客戶可以立即開始使用 AWS 和第三方分析和機(jī)器學(xué)習(xí)服務(wù)來查詢數(shù)據(jù)和訓(xùn)練機(jī)器學(xué)習(xí)模型。使用 AWS Glue DataBrew 沒有前期承諾或成本,客戶只需為在數(shù)據(jù)集上創(chuàng)建和運(yùn)行轉(zhuǎn)換付費(fèi)。要開始使用,請(qǐng)?jiān)L問 。
“數(shù)據(jù)湖是我們分析戰(zhàn)略的關(guān)鍵部分。我們面臨的挑戰(zhàn)之一是無法在將數(shù)據(jù)攝取到我們的數(shù)據(jù)湖之前輕松探索數(shù)據(jù)”
為分析和機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù)涉及幾個(gè)必要且耗時(shí)的任務(wù),包括數(shù)據(jù)提取、清理、規(guī)范化、加載以及大規(guī)模 ETL 工作流的編排。為了大規(guī)模提取、編排和加載數(shù)據(jù),精通 SQL 或 Python 或 Scala 等編程語言的數(shù)據(jù)工程師和 ETL 開發(fā)人員可以使用 AWS Glue。 ETL 開發(fā)人員通常更喜歡現(xiàn)代 ETL 工具中常見的可視化界面,而不是編寫 SQL、Python 或 Scala,因此 AWS 最近推出了 AWS Glue Studio,這是一種新的可視化界面,可幫助編寫、運(yùn)行和監(jiān)控 ETL 作業(yè),而無需編寫任何代碼。一旦數(shù)據(jù)被可靠地移動(dòng),底層數(shù)據(jù)仍然需要由在業(yè)務(wù)線中運(yùn)作并了解數(shù)據(jù)上下文的數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家進(jìn)行清理和規(guī)范化。為了對(duì)數(shù)據(jù)進(jìn)行清理和規(guī)范化,數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家要么在 Excel 或 Jupyter Notebooks 中處理小批量數(shù)據(jù),這些數(shù)據(jù)無法容納大型數(shù)據(jù)集,要么依靠稀缺的數(shù)據(jù)工程師和 ETL 開發(fā)人員編寫自定義代碼來執(zhí)行清潔和規(guī)范化轉(zhuǎn)換。為了發(fā)現(xiàn)數(shù)據(jù)中的異常,技術(shù)高超的數(shù)據(jù)工程師和 ETL 開發(fā)人員會(huì)花費(fèi)數(shù)天或數(shù)周時(shí)間編寫自定義工作流,以從不同來源提取數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行多次旋轉(zhuǎn)、轉(zhuǎn)置和切片,然后才能與數(shù)據(jù)分析師進(jìn)行迭代或數(shù)據(jù)科學(xué)家來識(shí)別和修復(fù)數(shù)據(jù)質(zhì)量問題。在開發(fā)了這些轉(zhuǎn)換之后,數(shù)據(jù)工程師和 ETL 開發(fā)人員仍然需要安排自定義工作流持續(xù)運(yùn)行,以便可以自動(dòng)清理和規(guī)范新傳入的數(shù)據(jù)。每次數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家想要更改或添加轉(zhuǎn)換時(shí),數(shù)據(jù)工程師和 ETL 開發(fā)人員都需要重新提取、加載、清理、規(guī)范化和編排數(shù)據(jù)準(zhǔn)備任務(wù)。這個(gè)迭代過程可能需要數(shù)周到數(shù)月才能完成;因此,客戶花費(fèi)了多達(dá) 80% 的時(shí)間來清理和規(guī)范化數(shù)據(jù),而不是實(shí)際分析數(shù)據(jù)并從中提取價(jià)值。
AWS Glue DataBrew 是 AWS Glue 的可視化數(shù)據(jù)準(zhǔn)備工具,它允許數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家使用交互式、點(diǎn)擊式可視化界面清理和轉(zhuǎn)換數(shù)據(jù),而無需編寫任何代碼。借助 AWS Glue DataBrew,最終用戶可以直接從其 Amazon Simple Storage Service (S3) 數(shù)據(jù)湖、Amazon Redshift 數(shù)據(jù)倉庫以及 Amazon Aurora 和 Amazon Relational Database Service (RDS) 數(shù)據(jù)庫輕松訪問和直觀地探索整個(gè)組織中的任何數(shù)據(jù)量??蛻艨梢詮?250 多種內(nèi)置函數(shù)中進(jìn)行選擇,以組合、旋轉(zhuǎn)和轉(zhuǎn)置數(shù)據(jù),而無需編寫代碼。 AWS Glue DataBrew 建議執(zhí)行數(shù)據(jù)清理和規(guī)范化步驟,例如過濾異常、將數(shù)據(jù)規(guī)范化為標(biāo)準(zhǔn)日期和時(shí)間值、生成用于分析的聚合以及更正無效、錯(cuò)誤分類或重復(fù)的數(shù)據(jù)。對(duì)于復(fù)雜的任務(wù),例如將單詞轉(zhuǎn)換為公共基礎(chǔ)詞或詞根(例如將“yearly”和“yearlong”轉(zhuǎn)換為“year”),AWS Glue DataBrew 還提供使用自然語言處理 (NLP) 等高級(jí)機(jī)器學(xué)習(xí)技術(shù)的轉(zhuǎn)換。然后,用戶可以將這些清理和規(guī)范化步驟保存到工作流(稱為配方)中,并自動(dòng)將它們應(yīng)用于未來的傳入數(shù)據(jù)。如果需要對(duì)工作流程進(jìn)行更改,數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家只需更新配方中的清理和規(guī)范化步驟,它們就會(huì)在新數(shù)據(jù)到達(dá)時(shí)自動(dòng)應(yīng)用于新數(shù)據(jù)。 AWS Glue DataBrew 將準(zhǔn)備好的數(shù)據(jù)發(fā)布到 Amazon S3,這使客戶可以輕松地立即將其用于分析和機(jī)器學(xué)習(xí)。 AWS Glue DataBrew 是無服務(wù)器且完全托管的,因此客戶無需配置、預(yù)置或管理任何計(jì)算資源。
“AWS 客戶正在以前所未有的速度使用數(shù)據(jù)進(jìn)行分析和機(jī)器學(xué)習(xí)。但是,這些客戶經(jīng)常告訴我們,他們的團(tuán)隊(duì)在與數(shù)據(jù)準(zhǔn)備相關(guān)的無差別、重復(fù)和平凡的任務(wù)上花費(fèi)了太多時(shí)間,”AWS 數(shù)據(jù)庫和分析副總裁 Raju Gulabani 說。 “客戶喜歡 AWS Glue 等基于代碼的數(shù)據(jù)準(zhǔn)備服務(wù)的可擴(kuò)展性和靈活性,但他們也可以從允許業(yè)務(wù)用戶、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家在不編寫代碼的情況下獨(dú)立地可視化探索和試驗(yàn)數(shù)據(jù)中受益。 AWS Glue DataBrew 具有易于使用的可視化界面,可幫助所有技術(shù)級(jí)別的數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家理解、組合、清理和轉(zhuǎn)換數(shù)據(jù)?!?/p>
AWS Glue DataBrew 現(xiàn)已在美國(guó)東部(弗吉尼亞北部)、美國(guó)東部(俄亥俄)、美國(guó)西部(俄勒岡)、歐洲(愛爾蘭)、歐洲(法蘭克福)、亞太地區(qū)(悉尼)和亞太地區(qū)(東京)全面推出,即將在其他地區(qū)推出。
總部位于東京的 NTT DOCOMO 是日本最大的移動(dòng)服務(wù)提供商,為超過 8000 萬客戶提供服務(wù)。 NTT DOCOMO 營(yíng)銷平臺(tái)規(guī)劃部總經(jīng)理 Takashi Ito 表示:“我們的分析師分析和查詢各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),以便更好地了解使用模式?!?“AWS Glue DataBrew 提供了一個(gè)可視化界面,使我們的技術(shù)和非技術(shù)用戶能夠快速輕松地分析數(shù)據(jù)。其先進(jìn)的數(shù)據(jù)剖析功能有助于我們更好地了解我們的數(shù)據(jù)并監(jiān)控?cái)?shù)據(jù)質(zhì)量。 AWS Glue DataBrew 和其他 AWS 分析服務(wù)使我們能夠簡(jiǎn)化工作流程并提高生產(chǎn)力?!?/p>
bp 是全球最大的綜合能源公司之一。 “數(shù)據(jù)湖是我們分析戰(zhàn)略的關(guān)鍵部分。我們面臨的挑戰(zhàn)之一是無法在將數(shù)據(jù)攝取到我們的數(shù)據(jù)湖之前輕松探索數(shù)據(jù),”bp 數(shù)據(jù)與分析平臺(tái)架構(gòu)總監(jiān) John Maio 說。 “AWS Glue DataBrew 具有復(fù)雜的數(shù)據(jù)分析功能和一組豐富的內(nèi)置轉(zhuǎn)換。這使我們的數(shù)據(jù)工程師能夠輕松地在可視界面中探索新數(shù)據(jù)集并進(jìn)行修改,以優(yōu)化攝取并允許分析師為他們的分析解決方案塑造數(shù)據(jù)。我們將 AWS Glue DataBrew 視為幫助我們更好地管理數(shù)據(jù)平臺(tái)和提高數(shù)據(jù)管道效率的一種方式?!?/p>英威達(dá)是科赫工業(yè)的子公司,是世界上最大的化學(xué)中間體、聚合物和纖維綜合生產(chǎn)商之一。 “數(shù)據(jù)對(duì)于優(yōu)化我們的制造流程至關(guān)重要。我們面臨的挑戰(zhàn)之一是確保我們擁有一個(gè)干凈的數(shù)據(jù)湖,可以作為我們分析和機(jī)器學(xué)習(xí)應(yīng)用程序的真實(shí)來源,”英威達(dá)分析和云計(jì)算負(fù)責(zé)人 Tanner Gonzalez 說。 “攝取到我們數(shù)據(jù)湖中的數(shù)據(jù)通常包含重復(fù)值、不正確的格式和其他缺陷,這些缺陷使其難以以原始形式使用。 Amazon AWS Glue DataBrew 將允許我們的數(shù)據(jù)分析師直觀地檢查大型數(shù)據(jù)集、清理和豐富數(shù)據(jù)以及執(zhí)行高級(jí)轉(zhuǎn)換。 AWS Glue DataBrew 將使我們的分析師和數(shù)據(jù)科學(xué)家能夠執(zhí)行高級(jí)數(shù)據(jù)工程活動(dòng),讓他們可以自由探索數(shù)據(jù)并減少獲得新見解的時(shí)間。”
關(guān)于亞馬遜網(wǎng)絡(luò)服務(wù)
14 年來,Amazon Web Services 一直是世界上最全面、應(yīng)用最廣泛的云平臺(tái)。 AWS 為計(jì)算、存儲(chǔ)、數(shù)據(jù)庫、網(wǎng)絡(luò)、分析、機(jī)器人、機(jī)器學(xué)習(xí)和人工智能 (AI)、物聯(lián)網(wǎng) (IoT)、移動(dòng)、安全、混合、虛擬和增強(qiáng)現(xiàn)實(shí)(VR 和 AR)提供超過 175 項(xiàng)功能齊全的服務(wù))、媒體和應(yīng)用程序開發(fā)、部署和管理,來自 24 個(gè)地理區(qū)域內(nèi)的 77 個(gè)可用區(qū) (AZ),并已宣布計(jì)劃在印度、印度尼西亞、日本、西班牙和瑞士再增加 15 個(gè)可用區(qū)和 5 個(gè) AWS 區(qū)域。數(shù)以百萬計(jì)的客戶(包括發(fā)展最快的初創(chuàng)公司、最大的企業(yè)和領(lǐng)先的政府機(jī)構(gòu))信任 AWS 來支持他們的基礎(chǔ)設(shè)施、變得更加敏捷并降低成本。
關(guān)于亞馬遜
亞馬遜遵循四項(xiàng)原則:以客戶為中心而非以競(jìng)爭(zhēng)對(duì)手為中心、對(duì)發(fā)明的熱情、對(duì)卓越運(yùn)營(yíng)的承諾以及長(zhǎng)期思考??蛻粼u(píng)論、一鍵購物、個(gè)性化推薦、Prime、亞馬遜物流、AWS、Kindle Direct Publishing、Kindle、Fire 平板電腦、Fire TV、亞馬遜 Echo 和 Alexa 是亞馬遜率先推出的一些產(chǎn)品和服務(wù)。
點(diǎn)擊咨詢現(xiàn)在有哪些新興平臺(tái)值得關(guān)注 >>>
特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場(chǎng)。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請(qǐng)于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號(hào)密碼登錄
平臺(tái)顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機(jī)入駐更便捷
返回頂部