什麼是大數據?

Michael Chen | 內容策略師 | 2024 年 9 月 23 日

大數據是指人類和機器每天產生的海量結構化和非結構化資訊 — 根據 PwC,這個數量達到每日數百 PB。我們透過社群貼文挖掘客戶情緒、顯示機器狀態的感測器資料以及超高速轉移資金的金融交易。這些資訊龐大且多樣,來得又快,讓傳統的資料處理工具和方法根本無法應對。

大數據的價值也無法忽視,無法進行分析就白白浪費了。大數據能從這些廣泛的資料中提取洞察,協助企業提高效率、加快創新速度、增加收入,全面取得成功。

幸運的是,分析和機器學習技術的進步使讓每家公司都能夠輕鬆進行大數據分析。

什麼是大數據?大數據的定義

大數據是指極為龐大和複雜的資料集,無法用傳統資料處理工具 (尤其是試算表) 輕易管理或分析。大數據包括結構化資料,例如庫存資料庫或金融交易清單;非結構化資料,例如社群貼文或影片;以及混合資料集,例如用於訓練 AI 大型語言模型的資料集。這些資料集可能涵蓋從莎士比亞的作品到公司過去十年的預算試算表等各種內容。

隨著近期技術的突破,大數據的規模不斷擴大,儲存及運算成本顯著降低,使得存儲更多資料變得更容易且更具經濟效益。由於資料量的增加,企業能夠以更準確和精確的方式做出業務決策。然而,從大數據中獲得完整的價值不僅僅在於分析資料,這本身也是一大優勢。在這個完整的發掘流程中,需要有洞析能力的分析師、業務使用者和管理階層提出正確的問題、找出資料模式、做出明智的假設,並能預測行為。

大數據的五個「V」是什麼?

傳統上,我們以三個特徵來識別大數據:多樣性、數量和速度,統稱為「三個 V」。然而,近幾年又新增了兩個 V:價值和真實性。

這些新增的特徵是有道理的,因為如今,資料已成為一種資本。以全球規模最大的幾家科技公司為例,他們提供的許多產品都是以資料為基礎,並不斷進行分析,以提高效率並開發新的計畫。成功離不開這五個 V。

  • 數量 (Volume)。大數據的資料數量是個「大」問題,因為您將不得不處理大量低密度且結構鬆散的資料。有些資料的價值可能還不明確,例如 X (先前稱為 Twitter) 資料饋送、網頁或行動應用程式上的點擊流,或是裝有感測器的裝置傳回的資料。有些組織需要處理的大數據高達數十 TB,有些組織甚至會達到數百 PB。
  • 速度 (Velocity)。「速度」是指接收資料的速率 (有時也含括處理資料的速率)。一般來說,速度最快的做法是將資料流直接存入記憶體,其次才是寫入磁碟機。有些智慧連網產品會即時 (或近乎即時地) 運作,因而需要即時評估及回應。
  • 種類 (Variety)。「種類」是指大數據多樣化的資料類型。傳統的資料類型結構嚴謹,並井然有序地存放在關聯式資料庫中。隨著大數據興起,新的非結構化資料類型也隨之應運而生。非結構化和半結構化的資料類型 (例如文字、音訊和視訊) 需要另外經過預先處理,才能產生意涵並支援中繼資料。
  • 真實性。您的資料有多真實,還有,您可以依賴這些資料到怎樣的程度?資料的真實性與其他功能概念相關,如資料品質和資料完整性。最終,這些概念相互重疊,管理組織的資料儲存庫,提供高品質、準確且可靠的資料來支援洞察和決策。
  • 價值。資料本身就具有業務價值,但是要先發掘這些價值才會有用。由於大數據能夠組合廣泛和深刻的洞察,這些資訊中隱含的洞察能夠惠及企業。這種價值可以是內部的,例如可以最佳化營運過程,或是外部的,例如最大化互動的客戶檔案建議。

大數據的演進:過去、現在和未來

雖然大數據的概念相對較新,但管理大型資料集的需求可以追溯到 20 世紀 60 年代和 70 年代,當時出現了第一批資料中心和關聯式資料庫。

過去。約莫 2005 年時,人們才開始意識到使用者透過 Facebook、YouTube 和其他線上服務產生了多麼巨量的資料。同年,專門用於儲存和分析大數據集的開源框架 Apache Hadoop 應運而生。值此同時,NoSQL 也開始變得炙手可熱。

現在。Apache Hadoop 和最近的 Apache Spark 等開源框架的開發對於大數據的成長至關重要,因為它們使大數據更容易使用且儲存成本更低。自那時起的數年之內,大數據的資料量便急劇增加。使用者仍持續產生大數據,但不僅是由人類產生。

隨著物聯網 (IoT) 誕生,連上網際網路的物件與裝置也越來越多,並紛紛收集有關客戶使用模式及產品效能的資料。機器學習的問世催生了更大量的資料。

未來。儘管大數據已經取得了長足的進展,但隨著生成式 AI 和雲端運算在企業中的應用不斷擴展,其價值將持續增長。雲端提供真正的彈性及可擴充性,讓開發人員可以輕鬆啟動臨時叢集,以針對資料子集進行測試。值此同時,圖形資料庫 (graph database) 的重要性也與日俱增,因為它具有顯示大量資料的能力,有助於快速進行全面分析。

大數據的優勢

大數據服務透過整合多樣的資料集,讓您能夠更全面地瞭解趨勢和模式。這種融合不僅有助於回顧性分析,還提升了預測能力,從而實現更準確的預測和策略決策。此外,大數據與 AI 結合後,其效能超越了傳統分析,讓企業能夠釋放創新解決方案,推動變革性成果。

更完整的答案代表資料更為有用,因為可以採用完全不同的方法來解決問題。

  • 更深刻的洞見。當企業擁有更多資料時,就能夠獲得更深入的洞察。在某些情況下,更廣泛的資料範圍能夠證實直覺,並在更為多樣的情境中進行比對。在其他情況下,更大的資料池揭示了以往未被察覺的聯繫,擴展了可能被忽視的視角。這樣一來,企業能夠對事物的運作和原因有更全面的理解,特別是在自動化使得大數據處理更加快速和便捷的情況下。
  • 決策制定。由於企業掌握更深刻的洞察,因此能夠做出更可靠的資料導向決策。當大數據與自動化和分析結合時,將開啟一系列可能性,包括更新的市場趨勢、社群媒體分析以及提供風險管理信息的模式。
  • 個人化的客戶體驗。大數據讓組織能夠結合客戶銷售資料、產業人口統計資料、社群媒體活動和行銷活動互動等相關資料建立客戶檔案。在自動化和分析出現之前,此類型的個人化由於範圍之廣幾乎無法實現;如今,透過大數據,這種細緻的處理提高了參與度,增強了客戶體驗。
  • 營運效率提升。每個部門都會產生資料,即使團隊不加以使用。這意味著每個部門都能從資料中獲益,用於檢測流程異常、識別維護和資源使用的模式,以及揭示人為錯誤的隱藏因素。無論是技術問題還是員工績效問題,大數據都能提供有關組織運作及其改進方向的洞察。

大數據使用案例

大數據可協助您改善客戶體驗和分析等各種業務活動。以下列舉幾個例子。

1.零售與電子商務。Netflix 與 Procter & Gamble 等公司都使用大數據來預測客戶需求。他們先將過往及目前產品/服務的關鍵屬性分類,再將這些屬性與熱銷產品/服務之間的關係建為模型,進而建立新產品/服務的預測模型。此外,P&G 使用聚焦群組、社群媒體、測試市場及早期商店轉售的資料和分析來規劃、生產及啟動新產品。

2.醫療保健。醫療行業可以整合多個內部資料來源,如電子健康紀錄、病患可穿戴裝置和人員配置資料,還有外部資料,如保險記錄和疾病研究,藉此改善提供者和病患的體驗。在內部,營運團隊提供的洞察有助於優化人員排班、供應鏈和設施管理。對病患而言,資料驅動的個人化建議和預測掃描可以改變他們的即時和長期照護。

3.金融服務業。涉及到安全問題時,您的對手不僅僅是幾個流氓駭客,而是整個專家團隊。還必須隨時因應持續演變的安全態勢與合規要求。大數據可協助您識別帶有詐欺跡象的資料模式,並彙總大量資訊,進而大幅加快合規回報速度。

4.製造業。可以預測機械故障的因素可能深受結構化資料 (例如設備的年度、製造及模型) 的影響,以及涵蓋數百萬筆日誌項目、感測器資料、錯誤訊息以及引擎溫度的非結構化資料。在發生問題前及早分析這類潛在的故障跡象,組織就能制定更符合成本效益的維護策略,並盡量延長零件和設備的正常運作時間。

5.政府和公共服務。政府機構可以從多種來源收集資料,例如 DMV 記錄、交通資料、警察和消防員資料、公立學校記錄等。這些資料能夠在多方面提升效率,例如透過分析駕駛行為來優化交叉口管理,並改善學校的資源分配。政府還可以公開發布資料,增強透明度,以提升公眾信任。

大數據的挑戰

儘管大數據充滿潛力,卻也有諸多挑戰伴隨而來。

首先,大數據的資料量無比龐大。分析師表示,儘管各種新的資料儲存技術接連問世,但資料量仍大約每兩年就會翻一番。那些難以跟上資料增長步伐並未能有效儲存資料的組織,不會因為資料量的減少而獲得緩解。

而且,僅僅以經濟實惠和便捷的方式儲存資料並不足夠。資料必須要能派上用場才具有價值,而這有賴於事前規劃。整理過的資料 (即對客戶相關並以能進行有意義分析的方式組織的資料) 並不是自然而然出現的。資料整理需要大量的工作。在許多組織中,資料科學家要花 50% 到 80% 的時間來整理和準備資料,才能有效使用。

組織把資料儲存在資料庫後,仍然面對兩個主要挑戰。首先,資料安全性與隱私權需求會影響 IT 團隊管理資料的方式,包括遵守區域/產業法規、加密和以角色為基礎的機密資料存取權限。其次,資料只有在被有效利用的情況下才有價值。建立資料導向文化可能相當具有挑戰性,尤其是在傳統政策和根深蒂固的觀念深植於文化之中時。新的動態應用程式 (例如自助服務分析) 幾乎可以為任何部門帶來變革,但 IT 團隊必須投入時間和精力進行教育、熟悉和訓練;這是一項長期投資,能夠為組織帶來顯著的變化,最終獲得洞察,實現優化。

最後,大數據技術的演化可說是瞬息萬變。幾年前,Apache Hadoop 還是用來處理大數據的熱門技術。接著 Apache Spark 於 2014 年推出。如今,各種技術的結合正在為大數據市場帶來新的突破。跟上變化的步伐對組織而言是一項持續的挑戰。

大數據如何運作

大數據的運作在於提供洞見,揭示新的機會和商業模式。資料被擷取後,需要進行以下三個關鍵步驟:

1. 整合

大數據匯集了來自許多不同來源和應用程式的資料。傳統的資料整合機制,例如提取、轉換和載入 (ETL),多半無法勝任大數據的相關任務。您需要運用新的策略和技術,才能分析 TB 甚至 PB 規模的大數據集。

在整合過程中,您必須導入並處理資料,同時確保資料格式正確,以利業務分析師展開相關工作。

2。 管理

大數據需要儲存的資源。您可以將儲存解決方案部署在雲端或公司內部,或兩邊同時部署。您可根據自己的需求選擇合適的資料儲存形式,並為這些資料集選用必要的處理規範和引擎。人們多半根據資料目前的所在位置來選擇合適的儲存解決方案。資料湖之所以日漸普及,正是因為它能支援您目前的運算要求,並能讓您隨需啟用必要的資源。

3. 分析

當您分析資料並採取行動時,您的大數據投資就能產生效益。如果對多樣化的資料集進行可視化分析,您能夠更清楚瞭解情況,進一步探索資料,以揭示全新洞見。與其他人分享您的洞見。運用機器學習和人工智慧技術建置資料模型,讓資料為組織發揮效用。

大數據最佳典範

為協助您順利踏入大數據領域,以下匯總一些重要的最佳實務做法,請您務必謹記在心。以下準則有助您奠定穩固的大數據基礎。

1. 確保大數據符合您特定的業務目標

您擁有的資料集越廣泛,就越有助於揭示新的洞見。因此,針對技能、組織或基礎架構進行任何新的投資時,背後都必須要有明確的業務目標,以確保進行中的專案能夠獲得源源不絕的資金挹注。如要確認您的投資方向是否正確,不妨問問自己:大數據支援您實現業務和 IT 優先事項的成效如何。舉例來說,您可透過篩選網頁記錄來了解客戶的電子商務行為、透過社群媒體和客服互動推斷客戶情緒,並嘗試了解各種不同的統計關聯方法,以及它們與客戶、產品與製造/工程資料之間的關聯性。

2. 確立標準並完善治理,以緩解技能短缺的問題

投資大數據時,最大的障礙在於缺乏具備分析技能的員工,這使您的投資獲益受限。為減輕這項風險,請務必將與大數據有關的技術、考量要點及決策納入您的 IT 治理計畫中。確立一致的標準,將有助您控管成本並善用資源。採用大數據解決方案和策略的組織應及早並經常評估其技能需求,以主動找出任何潛在的技能缺口。解決方法包括訓練/交叉訓練現有人力資源、僱用新的人力資源、與顧問公司合作等。

3。 運用卓越中心 (center of excellence) 方法促進知識移轉

卓越中心方法可幫助您促進知識共享、掌控監督機制並管理專案交流。無論大數據是您的全新投資或原有投資項目的延伸,相關的軟硬體成本均可由企業內部所有部門共同分攤。卓越中心方法可幫助您以更有條理且系統化的方式,提高大數據的功效以及整體的資訊架構成熟度。

4. 最大的回報是將非結構化資料與結構化資料結合

單獨分析大數據固然可以讓您獲益匪淺,但若能連結並整合低密度大數據以及您既有的結構化資料,您還能獲得更深入的業務洞察力。

無論您正在收集與客戶、產品、設備或環境有關的大數據,都應以在核心主摘要和分析摘要中加入更多相關資料點為目標,這樣才能做出更好的結論。舉例來說,推斷所有客戶的情緒以及僅推斷優質客戶的情緒,兩者是有區別的。因此,許多人將大數據視為其現有商業智慧功能、資料倉儲平台及資訊架構的整體延伸。

請記住,大數據分析程序和模型可根據真人資料建立,也可根據機器資料建立。大數據的分析功能包括統計、空間分析、語意、互動探索和視覺化。分析模型可幫助您找出不同資料類型和來源之間的關聯,進而揭示重要洞見。

5。 做好事前規劃,以提升探索實驗室的成效

想要在資料中找出意義,有時並非易事。有時我們甚至不知道自己在找什麼。這都是意料中的事。管理和 IT 部門必須協助解決這類欠缺方向感或要求不明的問題,

值此同時,企業也必須與分析師和資料科學家密切合作,找出關鍵的商業知識缺口和需求。為了促進資料的互動探索和統計演算法的實驗,您需要高效能的工作區域。請確認沙盒環境可獲得一切所需支援,並受到妥善治理。

6. 與雲端運作模型保持一致

大數據流程及使用者需要存取一系列廣泛的資源,才能進行迭代實驗並執行生產作業。大數據解決方案必須涵蓋所有資料領域,包括交易、主資料、參考資料和匯總資料,並應隨需建構分析沙盒。資源管理 (包括前期處理和後期處理、整合、資料庫內部摘要及分析建模) 是妥善控管整個資料流的關鍵所在。想要支援上述不斷變動的需求,就必須仰賴精心規劃的私有和公共雲端供應及安全性策略。

深入瞭解 Oracle 的大數據解決方案

對於需要高效、全面的大數據管理的組織來說, Oracle Cloud Infrastructure (OCI) Big Data 平台提供廣泛的功能和卓越的性價比。OCI 具有原生整合的大數據工具,是一個完全託管、具有自動擴展能力且富有彈性的大數據平台,採用隨用隨付模式,將所有資料整合在一起。

大數據的數量、速度和多樣性使得提取有意義的洞見和可行的情報變得具有挑戰性,但那些投入所需工具和專業知識的公司,可以從資料中挖掘出豐富的洞察,協助決策者根據事實而非猜測來制定策略。

沒有資料就沒有 AI,資料要越多越好。下載我們的報告,瞭解如何促進 AI 採用,快速取得成果,並透過檢索增強生成 (RAG) 和向量搜索來提升 AI 產出。

大數據常見問題

大數據有何意義?

大數據是指難以用傳統資料處理方法和工具管理的極為龐大且多樣化的資料集。

大數據的範例是什麼?

大數據的特徵可以用五個 V 來描述:大量資訊、資料產生速度快、多樣的資料類型,以及對資料的真實性價值的重視。其來源包括電子郵件和文字、影片、資料庫、物聯網感測器資料、社交貼文、網頁等。

倚賴資料導向決策的產業包括醫療照護、零售、金融及行銷。在醫療領域,大數據可用於挖掘大型資料集,以預測患者何時可能需要在疾病 (如二型糖尿病) 發展之前進行早期介入。在零售方面,大數據能協助優化庫存並提供個人化的優惠和推薦。在金融領域,大數據被用於欺詐檢測和更好地識別趨勢,而行銷人員則可以追蹤大量非結構化的社交媒體資料來檢測情感並優化廣告活動。