什麼是資料倉儲?

定義的資料倉儲

資料倉儲是一種資料管理系統類型,其設計是實現並支援商業智慧 (BI),尤其是分析。資料倉儲僅用於執行查詢和分析,且經常包含大量的歷史記錄資料。資料倉儲內的資料通常衍生於各式各樣的來源,例如應用程式記錄檔和交易應用程式。

資料倉儲集中管理並整合來自於大量來源的大量資料。其分析功能可讓組織從其資料中推知寶貴的資料見解,以改善決策制定。資料倉儲會隨著時間建置對於資料科學家和商業分析師而言屬於無價之寶的歷史記錄。由於具備這些功能,資料倉儲可被視為組織的單一真實資訊來源。


資料倉儲影片

 

典型的資料倉儲通常包括以下元素:

  • 儲存並管理資料的關聯式資料庫
  • 準備資料進行分析的萃取、載入和轉置 (ELT) 解決方案
  • 統計分析、報告和資料採礦功能
  • 用於視覺化資料並向企業使用者呈現的用戶端分析工具
  • 其他,更精細的分析應用程式可透過套用資料科學與人工智慧 (AI) 演算法或圖形與空間功能來產生可行的資訊,這些功能可進行大規模的資料分析

組織也可以選擇將交易處理、跨資料倉儲和資料湖的即時分析以及機器學習合併到一個 MySQL Database 服務中的解決方案,而無需顧慮擷取、轉換和載入 (ETL) 複製的複雜性、延遲、成本及風險。

資料倉儲的優勢

資料倉儲提供整體和特有優勢,可讓組織分析大量變體資料並從中萃取重大價值,並保留歷史記錄。

四個獨特特性 (由被視為資料倉儲之父的電腦科學家 William Inmon 提出) 讓資料倉儲得以提出此整體優勢。根據此定義,資料倉儲為

  • 主題導向。資料倉儲可以分析特定主題或功能領域 (如銷售) 的相關資料。
  • 經過整合。資料床在來自不同來源的不同資料類型之間創造出一致性。
  • 不會流失。資料進入資料倉儲後,便穩定不會變動。
  • 依循時間變動。資料倉儲分析會隨著時間變動。

設計精良的資料倉儲可迅速執行查詢,提供超高資料吞吐量,並讓終端使用者可靈活地交叉分析資料,或降低資料量以仔細檢查資料,並達成高階或細微而詳盡的各式需求。資料倉儲為中繼軟體 BI 環境間的功能根基。該中繼軟體 BI 會提供終端使用者報告、儀表板和其他介面。

資料倉儲架構

資料倉儲架構依據組織的特定需求決定。常見的架構包括

  • 簡單。所有資料倉儲共用基本的設計,其中中繼資料、摘要資料和原始資料全都儲存在倉儲的集中存放庫。存放庫由一端的資料來源提供,再由終端使用者存取,以便在另一端進行分析、報告和採礦。
  • 簡單,但包括臨時區域。操作資料必須在放入倉儲前進行清理和處理。儘管可透過程式完成此工作,但許多資料倉儲都會加入一個臨時區域,來儲存進入倉儲前的資料,以便簡化資料準備工作。
  • 輻射狀架構。在集中存放庫與終端使用者之間加入資料超市,可讓組織自訂其資料倉儲,以服務各式各樣的企業營運。當資料準備好使用時,便會將資料移至適當的資料超市。
  • 沙箱。沙箱是私密的安全區域,能夠讓公司快速地、非正式地探索新資料集或分析資料的方,而不必符合或遵循資料倉儲的正式規則和通訊協定。

資料倉儲的演進 - 從資料分析到 AI 和機器學習

資料倉儲最初於 1980 年代末期首次登場時,其目的是要協助資料從營運系統流入決策支援系統 (DSSs)。這些早期的資料倉儲需要龐大的備援數量。大多數組織都有服務各種使用者的多個 DSS 環境。儘管 DSS 環境會使用相同的大部份資料,但常會複製該環境資料的收集、清理和整合作業。

隨著資料倉儲變得更有效率,資料倉儲從支援傳統 BI 平台的資訊存放區演變成支援各式各樣廣大應用程式的廣泛分析基礎架構。

資料倉庫的反覆運算隨著時間的推移不斷進步,以企業資料倉儲 (EDW) 為企業提供遞增的額外價值。

步驟 功能 商業價值
1 交易報告 提供關聯式資訊,以建立企業績效快照
2 切片和切換、臨時操作查詢、BI 工具 擴大功能,以取得更深入的見解和更健全的分析
3 預測未來績效 (資料採礦) 開發視覺效果和前瞻性商業智慧
4 戰術分析 (空間、統計) 提供「假設」情境,以根據更全面的分析來為實際決策提供資訊
5 儲存數月或數年資料 僅儲存數週或數月資料

支援上述各個步驟需要持續增加的資料集種類。最後三個步驟尤其需要更廣泛的資料範圍和分析功能。

現今,人工智慧和機器學習讓所有產業開始轉變,服務、企業資產和資料倉儲也不例外。巨量資料的擴大和全新數位設計的應用程式正推動資料倉儲需求和功能的改變。

自主資料倉儲是此演變的最新一步,提供企業從其資料甚至萃取更大量資料的能力,同時降低成本並改善資料倉儲可靠性和效能。

深入了解自主資料倉儲並開始使用您自己的自主資料倉儲

資料倉儲、資料超市和操作型資料商店

儘管它們執行相似的角色,但資料倉儲不同於資料超市和操作型資料商店 (ODSs)。資料市集的功能與資料倉儲相同,但處理資料的範圍通常較有限,一般而言是單一部門或單一業務線。如此讓資料超市比資料倉儲更容易建立。但由於難以一致地管理和控制無數資料超市的資料,因此資料超市易於造成不一致。

ODSs 僅支援日常操作,因此其歷史資料檢視極其有限。儘管它們可以做為目前資料來源運作,且經常由資料倉儲使用,但不支援歷史久遠的查詢。

什麼是雲端資料倉儲?

雲端資料倉儲使用雲端來吸收和儲存來自不同資料來源的資料。

原來的資料倉儲是利用企業內部部署伺服器建置的。這些內部部署資料倉儲在今天仍然具有許多優勢。在許多情況下,它們可以提供更佳的治理、安全性、資料主權以及更佳的延遲。但是,內部部署資料倉儲並不靈活,它們需要複雜的預測才能確定如何擴充資料倉儲以滿足未來需求。管理這些資料倉儲也可能非常複雜。

另一方面,雲端資料倉儲的一些優點包括:

最好的雲端資料倉儲是全面託管和自主管理,從而確保即使是初學者也只需點選幾下即可建立和使用資料倉儲。開始移轉至雲端資料倉儲的一個簡單方式,就是在您的資料中心防火牆後執行內部部署雲端資料倉儲,此防火牆符合資料主權和安全需求。

此外,大多數雲端資料倉儲都採用隨用隨付的模型,可為客戶節省更多成本。

什麼是現代化資料倉儲?

無論他們是 IT、資料工程、業務分析還是資料科學團隊的一部分,組織中的不同使用者對資料倉儲的需求也不同。

一種現代資料架構會透過管理所有資料類型、工作負載和分析的方法來滿足這些不同的需求。它由架構模式和必要的元件組成,這些元件會整合在一起以符合產業最佳實務。現代資料倉儲包括:

  • 融合資料庫,可簡化所有資料類型的管理並提供使用資料的不同方法
  • 自助資料攝取和轉換服務
  • 支持 SQL、機器學習、圖形和空間處理
  • 多種分析選項,可輕鬆使用資料而無需移動資料
  • 自動化管理,可輕鬆進行佈建、擴展和管理

現代資料倉庫可以有效地簡化資料工作流程,而其他倉儲則無法做到。這代表從分析師和資料工程師到資料科學家和 IT 團隊的每個人都可以更有效地執行工作,並進行創新工作,從而推動組織向前發展,而不會出現無數次延遲和複雜問題。

設計資料倉儲

組織開始設計資料倉儲時,必須先從定義其特定業務需求、議定範圍,並草擬概念性設計開始。組織然後可以為資料倉儲建立邏輯和實體設計。邏輯設計涉及物件之間的關係,且實體設計儲存並擷取物件的最佳方式。實體設計也加入運輸、備份和復原流程。

任何資料倉儲設計皆須解決以下問題:

  • 特定資料內容
  • 資料群組之內與之間的關係
  • 支援資料倉儲的系統環境
  • 所需的資料轉置類型
  • 資料重新整理頻率

設計的主要因素是終端使用者的需求。大部分終端使用者對於執行分析和查看彙總資料也有興趣,而非做為單獨交易。但在特定需求浮現前,端使用者經常不知道自己真正的需求。因此,規劃流程應包括對於預期需求的充分探索。最後,資料倉儲設計應考留下擴充和演進的空間,以趕上終端使用者逐漸演變的需求。

雲端和資料倉儲

雲端中的資料倉儲提供與內部部署資料倉儲相同的特性和優勢,但多了雲端運算的優勢,例如彈性、擴充性、靈活度、安全性和成本降低。雲端資料倉儲可讓企業僅專注於從其資料萃取價值,而不需建置和管理軟硬體基礎架構,以支援資料倉儲。

我需要資料湖嗎?

組織會將資料湖和資料倉儲同時用於來自各種來源的大量資料。使用其中一種或另一種取決於組織打算如何使用資料。下面說明每種方法的最佳方法:

  • 資料湖會儲存未經篩選的豐富資料量,以供日後用於特定目的。來自企業營運應用程式、行動應用程式、社交媒體、IoT 裝置等資料會做為資料湖內的原始資料擷取。分析人員會在分析時導出各種資料集的結構、完整性、選擇和格式。組織需要以低成本的儲存體儲存來自多種來源未經格式化的非結構化資料,以便未來用於某項用途時,資料湖可能是正確選擇
  • 資料倉儲專門用於分析資料。資料倉儲內的分析處理是針對已準備好進行分析的資料來執行,這些資料已經過彙整、情境化和轉換,旨在產生以分析為基礎的洞析。資料倉儲也擅於處理來自各種不同來源的大量資料。當組織需要進行進階資料分析,或利用其企業內多重來源的歷史資料進行分析時,資料倉儲可能是正確選擇。

為何不針對您的 OLTP 環境執行分析?

資料倉儲是用於資料分析,尤其是歷史資料的關聯式環境。組織會使用資料倉儲,探索隨著時間累積之資料內的模式和關係。

相對之下,交易環境會用於持續處理交易,且常用於訂單登錄及金融和零售交易。他們並非建立在歷史資料的基礎之上。事實上,在 OLTP 環境中,歷史資料常被封存或直接刪除,以提高效能。

資料倉儲與 OLTP 系統的差異很大。

資料倉儲 OLTP 系統
工作負載 包括臨機操作查詢和資料分析 僅支援預先定義的操作
資料修改 定期自動更新 由發佈個別陳述式的終端使用者更新
結構描述設計 使用部分反正規化的結構描述來最佳化效能 使用完全正規化的結構描述來確保資料一致性
資料掃描 涵蓋數千到數百萬列 一次僅存取少量記錄
歷史資料 儲存數月或數年資料 僅儲存數週或數月資料

零複雜性部署:Autonomous Data Warehouse

資料倉儲最近的疊代是自主資料倉儲,仰賴 AI 和機器學習消除手動工作並簡化設定、部署和資料管理。雲端中的服務型自主資料倉庫不需要人力進行資料庫管理、硬體組態或管理或軟體安裝。

可供自動建立資料倉儲、備份、修補和升級資料庫、擴展或減少資料庫,而且具備與雲端平台相同的靈活性、擴展性、敏捷性和降低的成本。自主資料倉儲消除了複雜度、加速部署,並釋放資源,以便組織可以專注於為業務附加價值的活動上。

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse 是一個易於使用、完全自主的資料倉儲,可彈性擴充、支援快速查詢效能且無需進行資料庫管理。Oracle Autonomous Data Warehouse 的設定非常簡單快速。

為什麼選擇 Oracle Autonomous Data Warehouse 而非 Snowflake

  • 自動化。唯一的資料倉儲完全自動化資料庫管理。
  • 使用方便。Autonomous Data Warehouse 解決方案使用內建功能,可簡化部署和管理,免除額外獨立服務的需求
  • 解決方案成本。我們的現代化資料倉儲和增強功能成本與類似的工作負載需求類似。
  • 資料安全性。我們提供強大的內建安全協定,可保護您的資料免於網路威脅。
  • 資料治理。我們的資料倉儲平台可讓組織無縫管理資料主權需求。