資料倉儲是一種資料管理系統類型,其設計是實現並支援商業智慧 (BI),尤其是分析。資料倉儲僅用於執行查詢和分析,且經常包含大量的歷史記錄資料。資料倉儲內的資料通常衍生於各式各樣的來源,例如應用程式記錄檔和交易應用程式。
資料倉儲集中管理並整合來自於大量來源的大量資料。其分析功能可讓組織從其資料中推知寶貴的資料見解,以改善決策制定。資料倉儲會隨著時間建置對於資料科學家和商業分析師而言屬於無價之寶的歷史記錄。由於具備這些功能,資料倉儲可被視為組織的單一真實資訊來源。
典型的資料倉儲通常包括以下元素:
組織也可以選擇將交易處理、跨資料倉儲和資料湖的即時分析以及機器學習合併到一個 MySQL Database 服務中的解決方案,而無需顧慮擷取、轉換和載入 (ETL) 複製的複雜性、延遲、成本及風險。
資料倉儲提供整體和特有優勢,可讓組織分析大量變體資料並從中萃取重大價值,並保留歷史記錄。
四個獨特特性 (由被視為資料倉儲之父的電腦科學家 William Inmon 提出) 讓資料倉儲得以提出此整體優勢。根據此定義,資料倉儲為
設計精良的資料倉儲可迅速執行查詢,提供超高資料吞吐量,並讓終端使用者可靈活地交叉分析資料,或降低資料量以仔細檢查資料,並達成高階或細微而詳盡的各式需求。資料倉儲為中繼軟體 BI 環境間的功能根基。該中繼軟體 BI 會提供終端使用者報告、儀表板和其他介面。
資料倉儲架構依據組織的特定需求決定。常見的架構包括
資料倉儲最初於 1980 年代末期首次登場時,其目的是要協助資料從營運系統流入決策支援系統 (DSSs)。這些早期的資料倉儲需要龐大的備援數量。大多數組織都有服務各種使用者的多個 DSS 環境。儘管 DSS 環境會使用相同的大部份資料,但常會複製該環境資料的收集、清理和整合作業。
隨著資料倉儲變得更有效率,資料倉儲從支援傳統 BI 平台的資訊存放區演變成支援各式各樣廣大應用程式的廣泛分析基礎架構。
資料倉庫的反覆運算隨著時間的推移不斷進步,以企業資料倉儲 (EDW) 為企業提供遞增的額外價值。
步驟 | 功能 | 商業價值 |
---|---|---|
1 | 交易報告 | 提供關聯式資訊,以建立企業績效快照 |
2 | 切片和切換、臨時操作查詢、BI 工具 | 擴大功能,以取得更深入的見解和更健全的分析 |
3 | 預測未來績效 (資料採礦) | 開發視覺效果和前瞻性商業智慧 |
4 | 戰術分析 (空間、統計) | 提供「假設」情境,以根據更全面的分析來為實際決策提供資訊 |
5 | 儲存數月或數年資料 | 僅儲存數週或數月資料 |
支援上述各個步驟需要持續增加的資料集種類。最後三個步驟尤其需要更廣泛的資料範圍和分析功能。
現今,人工智慧和機器學習讓所有產業開始轉變,服務、企業資產和資料倉儲也不例外。巨量資料的擴大和全新數位設計的應用程式正推動資料倉儲需求和功能的改變。
自主資料倉儲是此演變的最新一步,提供企業從其資料甚至萃取更大量資料的能力,同時降低成本並改善資料倉儲可靠性和效能。
深入了解自主資料倉儲並開始使用您自己的自主資料倉儲。
儘管它們執行相似的角色,但資料倉儲不同於資料超市和操作型資料商店 (ODSs)。資料市集的功能與資料倉儲相同,但處理資料的範圍通常較有限,一般而言是單一部門或單一業務線。如此讓資料超市比資料倉儲更容易建立。但由於難以一致地管理和控制無數資料超市的資料,因此資料超市易於造成不一致。
ODSs 僅支援日常操作,因此其歷史資料檢視極其有限。儘管它們可以做為目前資料來源運作,且經常由資料倉儲使用,但不支援歷史久遠的查詢。
雲端資料倉儲使用雲端來吸收和儲存來自不同資料來源的資料。
原來的資料倉儲是利用企業內部部署伺服器建置的。這些內部部署資料倉儲在今天仍然具有許多優勢。在許多情況下,它們可以提供更佳的治理、安全性、資料主權以及更佳的延遲。但是,內部部署資料倉儲並不靈活,它們需要複雜的預測才能確定如何擴充資料倉儲以滿足未來需求。管理這些資料倉儲也可能非常複雜。
另一方面,雲端資料倉儲的一些優點包括:
最好的雲端資料倉儲是全面託管和自主管理,從而確保即使是初學者也只需點選幾下即可建立和使用資料倉儲。開始移轉至雲端資料倉儲的一個簡單方式,就是在您的資料中心防火牆後執行內部部署雲端資料倉儲,此防火牆符合資料主權和安全需求。
此外,大多數雲端資料倉儲都採用隨用隨付的模型,可為客戶節省更多成本。
無論他們是 IT、資料工程、業務分析還是資料科學團隊的一部分,組織中的不同使用者對資料倉儲的需求也不同。
一種現代資料架構會透過管理所有資料類型、工作負載和分析的方法來滿足這些不同的需求。它由架構模式和必要的元件組成,這些元件會整合在一起以符合產業最佳實務。現代資料倉儲包括:
現代資料倉庫可以有效地簡化資料工作流程,而其他倉儲則無法做到。這代表從分析師和資料工程師到資料科學家和 IT 團隊的每個人都可以更有效地執行工作,並進行創新工作,從而推動組織向前發展,而不會出現無數次延遲和複雜問題。
組織開始設計資料倉儲時,必須先從定義其特定業務需求、議定範圍,並草擬概念性設計開始。組織然後可以為資料倉儲建立邏輯和實體設計。邏輯設計涉及物件之間的關係,且實體設計儲存並擷取物件的最佳方式。實體設計也加入運輸、備份和復原流程。
任何資料倉儲設計皆須解決以下問題:
設計的主要因素是終端使用者的需求。大部分終端使用者對於執行分析和查看彙總資料也有興趣,而非做為單獨交易。但在特定需求浮現前,端使用者經常不知道自己真正的需求。因此,規劃流程應包括對於預期需求的充分探索。最後,資料倉儲設計應考留下擴充和演進的空間,以趕上終端使用者逐漸演變的需求。
雲端中的資料倉儲提供與內部部署資料倉儲相同的特性和優勢,但多了雲端運算的優勢,例如彈性、擴充性、靈活度、安全性和成本降低。雲端資料倉儲可讓企業僅專注於從其資料萃取價值,而不需建置和管理軟硬體基礎架構,以支援資料倉儲。
組織會將資料湖和資料倉儲同時用於來自各種來源的大量資料。使用其中一種或另一種取決於組織打算如何使用資料。下面說明每種方法的最佳方法:
資料倉儲是用於資料分析,尤其是歷史資料的關聯式環境。組織會使用資料倉儲,探索隨著時間累積之資料內的模式和關係。
相對之下,交易環境會用於持續處理交易,且常用於訂單登錄及金融和零售交易。他們並非建立在歷史資料的基礎之上。事實上,在 OLTP 環境中,歷史資料常被封存或直接刪除,以提高效能。
資料倉儲與 OLTP 系統的差異很大。
資料倉儲 | OLTP 系統 | |
---|---|---|
工作負載 | 包括臨機操作查詢和資料分析 | 僅支援預先定義的操作 |
資料修改 | 定期自動更新 | 由發佈個別陳述式的終端使用者更新 |
結構描述設計 | 使用部分反正規化的結構描述來最佳化效能 | 使用完全正規化的結構描述來確保資料一致性 |
資料掃描 | 涵蓋數千到數百萬列 | 一次僅存取少量記錄 |
歷史資料 | 儲存數月或數年資料 | 僅儲存數週或數月資料 |
資料倉儲最近的疊代是自主資料倉儲,仰賴 AI 和機器學習消除手動工作並簡化設定、部署和資料管理。雲端中的服務型自主資料倉庫不需要人力進行資料庫管理、硬體組態或管理或軟體安裝。
可供自動建立資料倉儲、備份、修補和升級資料庫、擴展或減少資料庫,而且具備與雲端平台相同的靈活性、擴展性、敏捷性和降低的成本。自主資料倉儲消除了複雜度、加速部署,並釋放資源,以便組織可以專注於為業務附加價值的活動上。
Oracle Autonomous Data Warehouse 是一個易於使用、完全自主的資料倉儲,可彈性擴充、支援快速查詢效能且無需進行資料庫管理。Oracle Autonomous Data Warehouse 的設定非常簡單快速。