א מחסן נתונים הוא סוג של מערכת ניהול נתונים שנועדה לאפשר פעילויות בינה עסקית (BI) ולתמוך בהן, במיוחד ניתוח נתונים. מחסני נתונים נועדו אך ורק לביצוע שאילתות וניתוח ולעתים קרובות מכילים כמויות גדולות של נתונים היסטוריים. הנתונים בתוך מחסן נתונים נגזרים בדרך כלל ממגוון רחב של מקורות כגון קובצי יומן יישומים ויישומי טרנזקציות.
מחסן נתונים מרכז ומאחד כמויות גדולות של נתונים ממספר מקורות. היכולות האנליטיות שלו מאפשרות לארגונים להפיק תובנות עסקיות חשובות מהנתונים שלהם כדי לשפר את קבלת ההחלטות. לאורך זמן, הוא בונה שיא היסטורי שיכול להיות בעל ערך רב עבור מדעני נתונים ואנליסטים עסקיים. בגלל היכולות הללו, מחסן נתונים יכול להיחשב כ"מקור האמת היחיד" של הארגון.
מחסן נתונים טיפוסי כולל לרוב את האלמנטים הבאים:
ארגונים יכולים לבחור פתרון שמשלב עיבוד תנועות, ניתוח נתונים בזמן אמת במחסני נתונים ואגמי נתונים, ולמידת מכונה בשירות מסד נתונים אחד של MySQL - בלי המורכבות, ההמתנה, העלות והסיכונים של שכפול שליפה, שינוי וטעינה (ETL).
מחסני נתונים מציעים את היתרון הכולל והייחודי בכך שהם מאפשרים לארגונים לנתח כמויות גדולות של נתוני וריאציות ולהפיק מהם ערך משמעותי, כמו גם לשמור תיעוד היסטורי.
ארבעה מאפיינים ייחודיים (מתוארים על ידי מדען המחשבים וויליאם אינמון, הנחשב לאבי מחסן הנתונים) מאפשרים למחסני נתונים לספק יתרון כולל זה. לפי הגדרה זו, מחסני נתונים הם
מחסן נתונים מעוצב היטב יבצע שאילתות במהירות רבה, יספק תפוקת נתונים גבוהה ויספק מספיק גמישות למשתמשי קצה "לחתוך לקוביות" או לצמצם את נפח הנתונים לצורך בחינה מדוקדקת יותר כדי לענות על מגוון דרישות - בין אם בגובה גבוה. ברמה או ברמה עדינה ומפורטת מאוד. מחסן הנתונים משמש כבסיס פונקציונלי לסביבות BI של תוכנות ביניים המספקות למשתמשי הקצה דוחות, לוחות מחוונים וממשקים אחרים.
הארכיטקטורה של מחסן נתונים נקבעת על פי הצרכים הספציפיים של הארגון. ארכיטקטורות נפוצות כוללות
כאשר מחסני נתונים עלו לראשונה לזירה בסוף שנות ה-80, מטרתם הייתה לסייע בזרימת נתונים ממערכות תפעוליות למערכות תומכות החלטות (DSS). מחסני הנתונים המוקדמים הללו דרשו כמות עצומה של יתירות. לרוב הארגונים היו סביבות DSS מרובות ששירתו את המשתמשים השונים שלהם. למרות שסביבות ה-DSS השתמשו בהרבה מאותם נתונים, האיסוף, הניקוי והשילוב של הנתונים שוכפלו לעתים קרובות עבור כל סביבה.
ככל שמחסני הנתונים הפכו יעילים יותר, הם התפתחו מחנויות מידע שתמכו בפלטפורמות BI מסורתיות לתשתיות אנליטיות רחבות התומכות במגוון רחב של יישומים, כגון ניתוח תפעולי וניהול ביצועים.
איטרציות של מחסני נתונים התקדמו לאורך זמן כדי לספק ערך נוסף מצטבר לארגון מחסן נתונים ארגוני (EDW).
שלב | יכולת | ערך עסקי |
---|---|---|
1 | דיווח עסקאות | מספק מידע יחסי ליצירת תמונות מצב של ביצועים עסקיים |
2 | חתך וקוביות, שאילתות אד-הוק, כלי BI | מרחיב את היכולות לתובנות מעמיקות יותר וניתוח חזק יותר |
3 | חיזוי ביצועים עתידיים (כריית נתונים) | מפתחת הדמיות ובינה עסקית צופה פני עתיד |
4 | ניתוח טקטי (מרחבי, סטטיסטיקה) | מציע תרחישי "מה אם" כדי לתת החלטות מעשיות המבוססות על ניתוח מקיף יותר |
5 | אחסון נתונים של שנים רבות או חודשים רבים | אחסון נתונים של שבועות או חודשים בלבד |
תמיכה בכל אחד מחמשת השלבים הללו דרש מגוון הולך וגדל של מערכי נתונים. שלושת השלבים האחרונים במיוחד יוצרים את ההכרח למגוון רחב עוד יותר של יכולות נתונים וניתוח.
כיום, בינה מלאכותית ולמידת מכונה עושות טרנספורמציה לכל תעשייה, שירות ונכס ארגוני - ומחסני נתונים לא יוצאים מן הכלל. ההרחבה של ביג דאטה והיישום של טכנולוגיות דיגיטליות חדשות מניע את השינוי בדרישות וביכולות של מחסני הנתונים.
ה מחסן נתונים אוטונומי הוא הצעד האחרון באבולוציה זו, ומציע לארגונים את היכולת להפיק ערך גדול עוד יותר מהנתונים שלהם תוך הפחתת עלויות ושיפור האמינות והביצועים של מחסני הנתונים.
למידע נוסף על מחסני נתונים אוטונומיים ועל תחילת העבודה עם מחסן נתונים אוטונומי משלכם.
למרות שהם ממלאים תפקידים דומים, מחסני נתונים שונים מ-Data March ו-Operation Data Stores (ODS). מאגר נתונים מבצע את אותן פונקציות כמו מחסן נתונים, אך בהיקף מצומצם הרבה יותר - בדרך כלל מחלקה או קו עסק בודד. זה הופך את ה-Data Mart לקל יותר להקמה מאשר מחסני נתונים. עם זאת, הם נוטים להכניס חוסר עקביות מכיוון שיכול להיות קשה לנהל ולשלוט בנתונים באופן אחיד על פני מספר רב של נתונים.
ODSs תומכים רק בפעולות יומיומיות, כך שהראייה שלהם על נתונים היסטוריים מוגבלת מאוד. למרות שהם עובדים טוב מאוד כמקורות נתונים עדכניים ומשמשים לעתים קרובות ככאלה על ידי מחסני נתונים, הם אינם תומכים בשאילתות עשירות מבחינה היסטורית.
מחסן נתונים בענן משתמש בענן כדי להטמיע ולאחסן נתונים ממקורות נתונים שונים.
מחסני הנתונים המקוריים נבנו עם שרתים מקומיים. מחסני נתונים מקומיים אלה ימשיכו להיות בעלי יתרונות רבים היום. במקרים רבים, הם יכולים להציע משילות משופרות, אבטחה, ריבונות נתונים, והשהייה טובה יותר. עם זאת, מחסני נתונים מקומיים אינם אלסטיים כל כך והם דורשים חיזוי מורכב כדי לקבוע כיצד להתאים את מחסן הנתונים לצרכים עתידיים. ניהול מחסני נתונים אלה יכול להיות גם מורכב מאוד.
מצד שני, כמה מהיתרונות של מחסני נתונים בענן לִכלוֹל:
מחסני הנתונים הטובים ביותר בענן מנוהלים באופן מלא' ובעלי הנעה עצמית, מה שמבטיח שאפילו משתמשים מתחילים יכולים ליצור מחסן נתונים ולהשתמש בו באמצעות מספר קליקים בלבד. דרך קלה להתחיל את ההגירה למחסן נתונים בענן היא להפעיל את מחסן נתונים בענן מקומי, מאחורי חומת האש של מרכז הנתונים שלך אשר עומדת בדרישות ריבונות נתונים ואבטחה.
בנוסף, רוב מחסני הנתונים בענן פועלים לפי מודל של תשלום לפי נסיעה, שמביא לחסכון נוסף בעלויות ללקוחות.
בין אם הם חלק מצוותי IT, הנדסת נתונים, ניתוח עסקי או מדעי נתונים, למשתמשים שונים ברחבי הארגון יש צרכים שונים למחסן נתונים.
א ארכיטקטורת נתונים מודרנית נותן מענה לצרכים השונים על ידי מתן דרך לנהל את כל סוגי הנתונים, עומסי העבודה והניתוח. הוא מורכב מדפוסי ארכיטקטורה עם רכיבים נחוצים המשולבים לעבודה משותפת בהתאמה לשיטות העבודה המומלצות בתעשייה. מחסן הנתונים המודרני כולל:
מחסן נתונים מודרני יכול לייעל ביעילות את זרימות העבודה של נתונים באופן שמחסנים אחרים לא יכולים. המשמעות היא שכולם, מאנליסטים ומהנדסי נתונים ועד מדעני נתונים וצוותי IT, יכולים לבצע את עבודתם בצורה יעילה יותר ולקדם את העבודה החדשנית שמצעידה את הארגון קדימה, ללא אינספור עיכובים ומורכבות.
כאשר ארגון יוצא לתכנן מחסן נתונים, עליו להתחיל בהגדרת הדרישות העסקיות הספציפיות שלו, הסכמה על ההיקף וניסוח עיצוב קונספטואלי. לאחר מכן, הארגון יכול ליצור גם את העיצוב הלוגי וגם הפיזי למחסן הנתונים. העיצוב הלוגי כולל את היחסים בין החפצים, והעיצוב הפיזי כולל את הדרך הטובה ביותר לאחסן ולשלוף את החפצים. התכנון הפיזי משלב גם תהליכי תחבורה, גיבוי ושחזור.
כל עיצוב מחסן נתונים חייב להתייחס לדברים הבאים:
גורם עיקרי בעיצוב הוא הצרכים של משתמשי הקצה. רוב משתמשי הקצה מעוניינים לבצע ניתוח ולהסתכל על נתונים מצטברים, במקום כעסקאות בודדות. עם זאת, לעתים קרובות משתמשי קצה לא באמת יודעים מה הם רוצים עד שמתעורר צורך ספציפי. לפיכך, תהליך התכנון צריך לכלול מספיק חקירה כדי לצפות את הצרכים. לבסוף, עיצוב מחסן הנתונים אמור לאפשר מקום להתרחבות והתפתחות כדי לעמוד בקצב הצרכים המתפתחים של משתמשי הקצה.
מחסני נתונים בענן מציעים את אותם מאפיינים ויתרונות של מחסני נתונים מקומיים אך עם היתרונות הנוספים של מחשוב ענן - כגון גמישות, מדרגיות, זריזות, אבטחה ועלויות מופחתות. מחסני נתונים בענן מאפשרים לארגונים להתמקד אך ורק בהפקת ערך מהנתונים שלהם במקום לבנות ולנהל את תשתית החומרה והתוכנה כדי לתמוך במחסן הנתונים.
ארגונים משתמשים בשניהם אגמי נתונים ומחסני נתונים עבור כמויות גדולות של נתונים ממקורות שונים. הבחירה מתי להשתמש בזה או אחר תלויה במה הארגון מתכוון לעשות עם הנתונים. להלן מתאר כיצד ניתן להשתמש בכל אחד מהם בצורה הטובה ביותר:
מחסני נתונים הם סביבות יחסים המשמשות לניתוח נתונים, במיוחד של נתונים היסטוריים. ארגונים משתמשים במחסני נתונים כדי לגלות דפוסים וקשרים בנתונים שלהם המתפתחים עם הזמן.
לעומת זאת, סביבות עסקאות משמשות לעיבוד עסקאות על בסיס שוטף ומשמשות בדרך כלל להזנת הזמנות ועסקאות פיננסיות וקמעוניות. הם לא בונים על נתונים היסטוריים; למעשה, ב OLTP בסביבות, נתונים היסטוריים נשמרים לרוב בארכיון או פשוט נמחקים כדי לשפר את הביצועים.
מחסני נתונים ומערכות OLTP שונים באופן משמעותי.
מחסן נתונים | מערכת OLTP | |
---|---|---|
עומס עבודה | התאמה לשאילתות אד-הוק ולניתוח נתונים | תמיכה בפעולות מוגדרות מראש בלבד |
שינויים בנתונים | עדכונים אוטומטיים על בסיס קבוע | עדכונים על ידי משתמשי קצה המנפיקים הצהרות בודדות |
עיצוב סכימה | שימוש בסכימות לא מנורמלות באופן חלקי לאופטימיזצית הביצועים | שימוש בסכימות מנורמלות לחלוטין להבטחת עקביות נתונים |
סריקת נתונים | כולל אלפי עד מיליוני שורות | גישה רק לקומץ רשומות בכל פעם |
נתונים היסטוריים | אחסון נתונים של שנים רבות או חודשים רבים | אחסון נתונים של שבועות או חודשים בלבד |
האיטרציה האחרונה של מחסן הנתונים היא מחסן הנתונים האוטונומי, המסתמך על AI ולמידת מכונה כדי לבטל משימות ידניות ולפשט את ההגדרה, הפריסה וניהול הנתונים. מחסן נתונים אוטונומי כשירות בענן אינו דורש ניהול מסד נתונים בביצוע אנושי, תצורה או ניהול חומרה, או התקנת תוכנה.
יצירת מחסן הנתונים, גיבוי, תיקון ושדרוג מסד הנתונים והרחבת או צמצום מסד הנתונים מתבצעים כולם באופן אוטומטי - עם אותה גמישות, מדרגיות, זריזות ועלויות מופחתות שמציעות פלטפורמות ענן. מחסן הנתונים האוטונומי מסיר מורכבות, מאיץ את הפריסה ומפנה משאבים כך שארגונים יכולים להתמקד בפעילויות שמוסיפות ערך לעסק.
Oracle Autonomous Data Warehouse הוא מחסן נתונים קל לשימוש, אוטונומי לחלוטין, שמתרחב בצורה גמישה, מספק ביצועי שאילתות מהירים ואינו דורש ניהול מסד נתונים. ההגדרה של Oracle Autonomous Data Warehouse היא פשוטה ומהירה מאוד.