Oracle Cloud Free Tier

免費在 Oracle Cloud 上建構、測試及部署應用程式。

什麼是 ETL?

擷取、轉換及載入 (ETL) 是一種處理資料導向的組織,可用來收集來自多個來源的資料,然後將之結合在一起,以支援探索、報告、分析及決策。

資料來源在類型、格式、磁碟區和可靠性方面可以非常多樣化,因此需要處理這些資料才能一起增加。目標資料存放區可以是資料庫、資料倉儲或資料湖,視目標和技術實作而定。

ETL 的三個不同步驟

擷取
在擷取期間,ETL 會識別資料並從其來源複製資料,以便將資料傳輸至目標資料存放區。資料來自結構化與非結構化來源,包括文件、電子郵件、業務應用程式、資料庫、設備、感測器、第三方等等。

轉換
因為擷取的資料是其原始格式中的原始資料,因此需要對應和轉換以準備事件資料存放區的資料。在轉換過程中,ETL 會驗證、驗證、去除重複項和 (或) 以產生資料可靠且可查詢的方式彙總資料。

載入
ETL 會將轉換的資料移至目標資料存放區。此步驟可以包括所有來源資料的起始載入,或載入來源資料的增量變更。您可以即時或排定批次載入資料。

ELT 或 ETL:差異為何?

轉換步驟是 ETL 處理中最複雜的階段。因此,ETL 與 ELT 不同於兩個主要點:

  • 轉換發生時間
  • 轉換地點

在傳統的資料倉儲中,會先從「來源系統」(ERP 系統、CRM 系統等) 擷取資料。OLAP 工具與 SQL 查詢取決於資料集的標準化,以取得彙總結果。這表示資料必須經歷一系列的轉換。

傳統上,在將資料載入目標系統之前,已經完成這些轉換,通常是關聯式資料倉儲。

不過,當支援資料倉儲的相關資料儲存和處理技術發展時,目標系統也可能會帶來變化。ETL 和 ELT 處理程序皆包含暫存區域。在 ETL 中,這些區域在工具中找到,不論是專有或自訂。它們位於來源系統 (例如 CRM 系統) 和目標系統 (資料倉儲) 之間。

相反地,使用 ELT 在資料倉儲中,暫存區域會位於資料倉儲中,而將 DBMS 執行轉換的資料庫引擎則與 ETL 工具相反。因此,ELT 的直接後果之一,就是您失去 ETL 工具提供以協助資料轉換處理程序的資料準備與清理功能。

ETL 和企業資料倉儲

傳統上,ETL 的工具主要是用來將資料傳遞給企業資料倉儲,支援商業智慧 (BI) 應用程式。這種資料倉儲的設計目的,是代表企業中在所有活動中發生的所有事實的可靠來源。這些倉儲中的資料會使用管理資料驗證的嚴格綱要、描述資料以及規則來小心進行結構。

企業資料倉儲的 ETL 工具必須滿足資料整合需求,例如大量的高效能批次載入、事件導向、技巧的整合處理作業、可程式設計的轉換,以及協調,以便處理繁重的轉換和工作流程,並對大多數的資料來源提供連接器。

載入資料之後,您可以有多個策略,使其在來源與目標資料存放區之間保持同步。您可以定期重新載入完整資料集、排定最新資料的定期更新,或承諾以在來源與目標資料倉儲之間維持完整的同步。這種即時整合稱為變更資料擷取 (CDC)。在這個進階程序中,ETL 工具需要了解來源資料庫的交易語意,並正確將這些交易傳輸至目標資料倉儲。

ETL 和資料市集

資料市集比企業資料倉儲較小且更重心的目標資料儲存區。舉例來說,他們可以專注於單一部門或單一產品線的相關資訊。因此,資料市集 ETL 工具的使用者通常是業務線 (LOB) 專業人員、資料分析師和 (或) 資料分析師。

資料市集的 ETL 工具必須由業務人員和資料管理員使用,而不是由程式設計人員和 IT 人員使用。因此,這些工具應該要有一個視覺工作流程,才能輕鬆設定 ETL 管線。

了解無程式碼資料流程設計

ETL 或 ELT 和資料湖

資料湖遵循與資料倉儲與資料市的模式不同。資料湖通常會將其資料儲存在物件儲存體或 Hadoop 分散式檔案系統 (HDFS) 中,因此您可以不用儲存綱要就儲存較少結構化的資料;然後支援多個工具來查詢該非結構化資料。

另外一種模式允許擷取、載入和轉換 (ELT),其中會先將資料以「現況」儲存,並在資料湖中擷取資料之後進行轉換、分析及處理。此模式提供數個優點。

  • 已記錄所有資料;不會因為彙總或篩選而遺失任何訊號。
  • 資料可以被快速擷取,這對物聯網(IoT)串流、日誌分析、網站指標等非常有用。
  • 它可以尋找擷取時無法預期的趨勢。
  • 它可部署在大型、非結構化資料集中偵測型式的新人工智慧 (AI) 技術。

資料湖的 ETL 工具包含視覺資料整合工具,因為這些工具對資料分析師和資料工程師有效。資料湖架構中經常使用的其他工具包括:

  • 雲端串流處理服務可將大量即時資料串流擷取至資料湖,以進行訊息傳遞、應用程式日誌、作業遙測、Web 點擊串流資料追蹤、事件處理及安全分析。與 Kafka 相容,可確保這些服務可以從近端的資料來源擷取資料。
  • 以 Spark 為基礎的雲端服務,可以根據非常大型的資料集快速執行資料處理與轉換作業。Spark 服務可從物件儲存或 HDFS 載入資料集、跨可擴充的運算執行處理叢集處理將這些資料集轉換為記憶體,然後將輸出寫回資料湖或資料市集和 (或) 資料倉儲。

ETL 使用案例

ETL 處理作業是許多產業的基礎,因為能夠快速可靠地將資料擷取至資料科學和分析的資料湖,同時建立高品質模型。ETL 解決方案也可以大規模載入和轉換交易資料,從大資料磁碟區建立組織檢視。這讓企業能夠以視覺方式呈現和預測產業趨勢。有些產業仰賴 ETL 可實行的洞見、快速決策並提升效率。

金融服務
金融服務機構收集大量結構化與非結構化資料,以取得消費者行為的深入解析。這些深入解析可以分析風險、優化銀行的財務服務、改善線上平台,甚至提供 ATM 的現金。

石油與天然氣
石油與天然氣產業使用 ETL 解決方案,對特定地理區域的使用量、儲存及趨勢產生預測。ETL 可盡可能從擷取網站的所有感測器收集及處理該資訊,以方便閱讀。

汽車業
ETL 解決方案可讓經銷商與製造商了解銷售模式、校正行銷活動、補貨庫存,以及追蹤客戶潛在客戶。

電信
電信提供者運用今天產生的前所未有的磁碟區和各種資料,透過 ETL 解決方案加強對資料的管理及了解。經過處理和分析資料後,企業可使用該資料來改善廣告、社群媒體、SEO、客戶滿意度、獲利能力等。

醫療照護
健康照護業必須降低成本並同時提升關注度,醫療照護業會採用 ETL 解決方案管理病患記錄、蒐集保險資訊,以及符合發展中的法規需求。

生命科學
臨床實驗室倚賴 ETL 解決方案和人工智慧 (AI) 來處理研究機構產生的各種不同類型資料。例如,與疫苗開發合作需要收集、處理及分析大量資料。

公部門
運用物聯網 (IoT) 功能迅速地啟動,智慧型城市正使用 ETL 和人工智慧能力來最佳化流量、監控水品質、改善停車狀況等。

ETL 產品與解決方案

服務導向架構 (SOA) Suite
如何降低應用程式整合的複雜性?此解決方案具備簡化的雲端、行動、內部部署及 IoT 整合功能,只要單一平台即可輕鬆提升整合速度,同時降低總持有成本 (TCO)。許多企業應用程式 (包括 Oracle E-Business Suite) 也大幅度使用此產品來協調資料流程。

GoldenGate
數位轉型通常需要將資料從擷取到需要的位置移動資料,而 GoldenGate 的設計可簡化此流程。Oracle GoldenGate 是高速的資料複寫解決方案,可在部署於企業內部、雲端或自治式資料庫的異質資料庫之間,進行即時整合。GoldenGate 可改善資料可用性,而不影響系統效能,提供即時資料存取和作業報告。

雲端串流
我們的雲端串流解決方案提供完全託管、可擴充且持久性的解決方案,可即時擷取及使用大量資料串流。此服務用於訊息傳遞、應用程式日誌、作業遙測、Web 點擊串流資料,或其他在發布 / 訂閱訊息傳遞模型中以持續且循序方式產生及處理資料的執行處理。它與 Spark 和 Kafka 完全相容。