擷取、轉換及載入 (ETL) 是一種處理資料導向的組織,可用來收集來自多個來源的資料,然後將之結合在一起,以支援探索、報告、分析及決策。
資料來源在類型、格式、磁碟區和可靠性方面可以非常多樣化,因此需要處理這些資料才能一起增加。目標資料存放區可以是資料庫、資料倉儲或資料湖,視目標和技術實作而定。
擷取
在擷取期間,ETL 會識別資料並從其來源複製資料,以便將資料傳輸至目標資料存放區。資料來自結構化與非結構化來源,包括文件、電子郵件、業務應用程式、資料庫、設備、感測器、第三方等等。
轉換
因為擷取的資料是其原始格式中的原始資料,因此需要對應和轉換以準備事件資料存放區的資料。在轉換過程中,ETL 會驗證、驗證、去除重複項和 (或) 以產生資料可靠且可查詢的方式彙總資料。
載入
ETL 會將轉換的資料移至目標資料存放區。此步驟可以包括所有來源資料的起始載入,或載入來源資料的增量變更。您可以即時或排定批次載入資料。
轉換步驟是 ETL 處理中最複雜的階段。因此,ETL 與 ELT 不同於兩個主要點:
在傳統的資料倉儲中,會先從「來源系統」(ERP 系統、CRM 系統等) 擷取資料。OLAP 工具與 SQL 查詢取決於資料集的標準化,以取得彙總結果。這表示資料必須經歷一系列的轉換。
傳統上,在將資料載入目標系統之前,已經完成這些轉換,通常是關聯式資料倉儲。
不過,當支援資料倉儲的相關資料儲存和處理技術發展時,目標系統也可能會帶來變化。ETL 和 ELT 處理程序皆包含暫存區域。在 ETL 中,這些區域在工具中找到,不論是專有或自訂。它們位於來源系統 (例如 CRM 系統) 和目標系統 (資料倉儲) 之間。
相反地,使用 ELT 在資料倉儲中,暫存區域會位於資料倉儲中,而將 DBMS 執行轉換的資料庫引擎則與 ETL 工具相反。因此,ELT 的直接後果之一,就是您失去 ETL 工具提供以協助資料轉換處理程序的資料準備與清理功能。
傳統上,ETL 的工具主要是用來將資料傳遞給企業資料倉儲,支援商業智慧 (BI) 應用程式。這種資料倉儲的設計目的,是代表企業中在所有活動中發生的所有事實的可靠來源。這些倉儲中的資料會使用管理資料驗證的嚴格綱要、描述資料以及規則來小心進行結構。
企業資料倉儲的 ETL 工具必須滿足資料整合需求,例如大量的高效能批次載入、事件導向、技巧的整合處理作業、可程式設計的轉換,以及協調,以便處理繁重的轉換和工作流程,並對大多數的資料來源提供連接器。
載入資料之後,您可以有多個策略,使其在來源與目標資料存放區之間保持同步。您可以定期重新載入完整資料集、排定最新資料的定期更新,或承諾以在來源與目標資料倉儲之間維持完整的同步。這種即時整合稱為變更資料擷取 (CDC)。在這個進階程序中,ETL 工具需要了解來源資料庫的交易語意,並正確將這些交易傳輸至目標資料倉儲。
資料市集比企業資料倉儲較小且更重心的目標資料儲存區。舉例來說,他們可以專注於單一部門或單一產品線的相關資訊。因此,資料市集 ETL 工具的使用者通常是業務線 (LOB) 專業人員、資料分析師和 (或) 資料分析師。
資料市集的 ETL 工具必須由業務人員和資料管理員使用,而不是由程式設計人員和 IT 人員使用。因此,這些工具應該要有一個視覺工作流程,才能輕鬆設定 ETL 管線。
資料湖遵循與資料倉儲與資料市的模式不同。資料湖通常會將其資料儲存在物件儲存體或 Hadoop 分散式檔案系統 (HDFS) 中,因此您可以不用儲存綱要就儲存較少結構化的資料;然後支援多個工具來查詢該非結構化資料。
另外一種模式允許擷取、載入和轉換 (ELT),其中會先將資料以「現況」儲存,並在資料湖中擷取資料之後進行轉換、分析及處理。此模式提供數個優點。
資料湖的 ETL 工具包含視覺資料整合工具,因為這些工具對資料分析師和資料工程師有效。資料湖架構中經常使用的其他工具包括:
ETL 處理作業是許多產業的基礎,因為能夠快速可靠地將資料擷取至資料科學和分析的資料湖,同時建立高品質模型。ETL 解決方案也可以大規模載入和轉換交易資料,從大資料磁碟區建立組織檢視。這讓企業能夠以視覺方式呈現和預測產業趨勢。有些產業仰賴 ETL 可實行的洞見、快速決策並提升效率。
金融服務
金融服務機構收集大量結構化與非結構化資料,以取得消費者行為的深入解析。這些深入解析可以分析風險、優化銀行的財務服務、改善線上平台,甚至提供 ATM 的現金。
石油與天然氣
石油與天然氣產業使用 ETL 解決方案,對特定地理區域的使用量、儲存及趨勢產生預測。ETL 可盡可能從擷取網站的所有感測器收集及處理該資訊,以方便閱讀。
汽車業
ETL 解決方案可讓經銷商與製造商了解銷售模式、校正行銷活動、補貨庫存,以及追蹤客戶潛在客戶。
電信
電信提供者運用今天產生的前所未有的磁碟區和各種資料,透過 ETL 解決方案加強對資料的管理及了解。經過處理和分析資料後,企業可使用該資料來改善廣告、社群媒體、SEO、客戶滿意度、獲利能力等。
醫療照護
健康照護業必須降低成本並同時提升關注度,醫療照護業會採用 ETL 解決方案管理病患記錄、蒐集保險資訊,以及符合發展中的法規需求。
生命科學
臨床實驗室倚賴 ETL 解決方案和人工智慧 (AI) 來處理研究機構產生的各種不同類型資料。例如,與疫苗開發合作需要收集、處理及分析大量資料。
公部門
運用物聯網 (IoT) 功能迅速地啟動,智慧型城市正使用 ETL 和人工智慧能力來最佳化流量、監控水品質、改善停車狀況等。
服務導向架構 (SOA) Suite
如何降低應用程式整合的複雜性?此解決方案具備簡化的雲端、行動、內部部署及 IoT 整合功能,只要單一平台即可輕鬆提升整合速度,同時降低總持有成本 (TCO)。許多企業應用程式 (包括 Oracle E-Business Suite) 也大幅度使用此產品來協調資料流程。
GoldenGate
數位轉型通常需要將資料從擷取到需要的位置移動資料,而 GoldenGate 的設計可簡化此流程。Oracle GoldenGate 是高速的資料複寫解決方案,可在部署於企業內部、雲端或自治式資料庫的異質資料庫之間,進行即時整合。GoldenGate 可改善資料可用性,而不影響系統效能,提供即時資料存取和作業報告。
雲端串流
我們的雲端串流解決方案提供完全託管、可擴充且持久性的解決方案,可即時擷取及使用大量資料串流。此服務用於訊息傳遞、應用程式日誌、作業遙測、Web 點擊串流資料,或其他在發布 / 訂閱訊息傳遞模型中以持續且循序方式產生及處理資料的執行處理。它與 Spark 和 Kafka 完全相容。