مستودع البيانات هو نوع من نظام إدارة البيانات تم تصميمه لتمكين ودعم أنشطة ذكاء الأعمال (BI)، وخاصةً التحليلات. تهدف مستودعات البيانات فقط إلى إجراء الاستعلامات والتحليلات وغالبًا ما تحتوي على أحجام كبيرة من البيانات القديمة. عادةً ما يتم استخلاص البيانات داخل مستودع البيانات من مجموعة واسعة من المصادر، مثل ملفات سجل التطبيقات وتطبيقات المعاملات.
يعمل مستودع البيانات على مركزية ودمج أحجام كبيرة من البيانات من مصادر متعددة. وتسمح الإمكانات التحليلية لمستودع البيانات للمؤسسات باستخلاص رؤى تجارية قيّمة من بياناتها لتحسين عملية اتخاذ القرار. وبمرور الوقت، تنشئ سجلاً قديمًا يكون فائق القيمة لعلماء البيانات ومحللي الأعمال. وبسبب هذه الإمكانات، يمكن اعتبار مخزن البيانات "بمثابة مصدر واحد للحقيقة" في المؤسسة.
غالبًا ما يشتمل مستودع البيانات النموذجي على العناصر التالية:
يمكن للمنظمات أيضًا اختيار حل الجمع بين معالجة المعاملات والتحليلات في الوقت الفعلي عبر مستودعات البيانات وبحيرات البيانات والتعلم الآلي في خدمة MySQL Database واحدة—دون التعقيد والكمون والتكلفة ومخاطر تكرار الاستخراج والتحويل والتحميل (ETL).
توفّر مستودعات البيانات ميزة شاملة وفريدة من نوعها تتمثل في السماح للمؤسسات بتحليل أحجام كبيرة من البيانات المتغيرة واستخراج قيمة كبيرة منها، وكذلك الاحتفاظ بسجل قديم.
تسمح أربع خصائص فريدة (موضحة من قِبل عالم الكمبيوتر وليام إنمون، الذي يعتبر بمثابة الأب الروحي لمستودع البيانات) لمستودعات البيانات بتقديم هذه الميزة الشاملة. وفقًا لهذا التعريف، تتميز مستودعات البيانات بأنها:
سيقوم مخزن البيانات المصمّم بشكل جيد بإجراء الاستعلامات بسرعة كبيرة، وتقديم سرعة نقل بيانات عالية، وتوفير مرونة كافية للمستخدمين النهائيين لتنفيذ "عمليات الإسقاط على الأبعاد" أو تقليل حجم البيانات لإجراء فحص دقيق لتلبية مجموعة متنوعة من المطالب سواء على مستوى عالٍ أو بمستوى جيد جدًا وتفصيلي. كما يُعد مستودع البيانات بمثابة الأساس الوظيفي لبيئات التحليل الذكي للأعمال (BI) الخاصة بالبرامج الوسيطة التي توفّر للمستخدمين تقارير ولوحات معلومات وواجهات أخرى.
يتم تحديد بنية مستودع البيانات حسب الاحتياجات المحددة للمؤسسة. وتتميّز البُنى المشتركة بما يلي:
عندما ظهرت مستودعات البيانات لأول مرة في أواخر الثمانينيات، كان الغرض منها هو مساعدة تدفق البيانات، بدءًا من أنظمة التشغيل إلى أنظمة دعم اتخاذ القرارات (DSSs). وتطلبت مستودعات البيانات الأولية هذه حجمًا هائلاً من التكرار. وكانت معظم المؤسسات تتضمن بيئات أنظمة دعم اتخاذ القرارات (DSS) متعددة تخدم مختلف مستخدميها. وبالرغم من استخدام بيئات أنظمة دعم اتخاذ القرارات (DSS) للكثير من البيانات نفسها، إلا أن تجميع البيانات ومحوها وتكاملها غالبًا ما كان يتم تكراره في كل بيئة من البيئات.
نظرًا لأن مستودعات البيانات أصبحت أكثر فاعلية، فقد نشأت من مخازن معلومات دعمت الأنظمة الأساسية التقليدية للتحليل الذكي للأعمال (BI) في بنى تحتية واسعة للتحليلات تدعم مجموعة واسعة من التطبيقات، مثل التحليلات التشغيلية وإدارة الأداء.
تقدمت تكرارات مستودع البيانات بمرور الوقت لتقديم قيمة إضافية إضافية للمؤسسة باستخدام مستودع بيانات الشركة (EDW).
الخطوة | الإمكانيات | قيمة الأعمال |
---|---|---|
1 | إعداد تقارير عن المعاملات | توفير معلومات ارتباطية لإنشاء لقطات لأداء العمل |
2 | تنفيذ عمليات الإسقاط على الأبعاد، والاستعلام المخصّص، وأدوات التحليل الذكي للأعمال (BI) | التوسيع من الإمكانات للحصول على رؤى أعمق وتحليلات أكثر فعالية |
3 | التنبؤ بالأداء المستقبلي (جمع البيانات) | تطوير التصورات وذكاء الأعمال التطلعي |
4 | التحليل التكتيكي (المكاني، والإحصائيات) | توفير سيناريوهات "ماذا لو" للإبلاغ عن القرارات العملية القائمة على تحليلات أكثر شمولية |
5 | التخزين عدة أشهر أو سنوات من البيانات | تخزين البيانات لمدة أسابيع أو أشهر فقط |
يتطلب دعم كل خطوة من هذه الخطوات الخمس مجموعة متزايدة ومتنوعة من مجموعات البيانات. تُنشئ الخطوات الثلاث الأخيرة على وجه الخصوص ضرورة لمجموعة أوسع من البيانات وإمكانات تحليلية.
ويعمل الذكاء الاصطناعي والتعلُّم الآلي اليوم على تحويل كل أصول الصناعة والخدمات والمؤسسات - ولا يتم استثناء مستودعات البيانات من ذلك. يؤدي التوسُّع في البيانات الكبيرة وتطبيق التقنيات الرقمية الجديدة إلى إحداث تغيير في متطلبات وإمكانات مستودعات البيانات.
ويعد مستودع البيانات الذاتي هو الخطوة الأخيرة في هذا التطوُّر، حيث يقدم للشركات إمكانية استخراج قيمة أكبر من بياناتها مع تقليل التكاليف وتحسين موثوقية مستودع البيانات وأدائه.
تعرَّف على المزيد حول مستودعات البيانات الذاتية، ثم ابدأ في استخدام مستودع البيانات الذاتي الخاص بك.
على الرغم من أنها تؤدي جميعًا أدوارًا مماثلة، فإن مستودعات البيانات تختلف عن متاجر البيانات ومخازن بيانات التشغيل (ODS). يؤدي متجر البيانات نفس وظائف مستودع البيانات ولكن ضمن نطاق محدود للغاية - عادةً ضمن قسم واحد أو خط أعمال واحد. وهذا بدوره يجعل إنشاء متاجر البيانات أسهل من مستودعات البيانات. ومع ذلك، فإنها تميل إلى تقديم عدم تناسق لأنه قد يكون من الصعب إدارة البيانات والتحكم فيها بشكل موحّد عبر العديد من متاجر البيانات.
تدعم مخازن بيانات التشغيل (ODS) العمليات اليومية فقط، لذلك فإن عرضها للبيانات القديمة محدود للغاية. وعلى الرغم من أنها تعمل جيدًا كمصادر للبيانات الحالية وغالبًا ما تُستخدم في مستودعات البيانات على هذا النحو، فإنها لا تدعم الاستعلامات الثرية القديمة.
يستخدم مستودع البيانات السحابي السحابة لاستيعاب البيانات وتخزينها من مصادر بيانات مختلفة.
تم بناء مستودعات البيانات الأصلية على خوادم محلية. لا تزال مستودعات البيانات المحلية هذه تتمتع بالعديد من المزايا اليوم. وفي الكثير من الحالات، يمكنهم تقديم تحسين الحوكمة، والأمان، وسيادة البيانات، وزمن انتقال أفضل. ولكن لا تتسم مستودعات البيانات المحلية بالمرونة وتتطلب تنبؤًا معقدًا لتحديد كيفية توسيع نطاق مستودع البيانات لتلبية الاحتياجات المستقبلية. يمكن أن تكون إدارة مستودعات البيانات هذه أيضًا معقدة للغاية.
من ناحية أخرى، تتضمن بعض مزايا مستودعات البيانات السحابية ما يلي:
إن أفضل مستودعات البيانات السحابية تكون مدارة بالكامل وذاتية التوجيه، مما يضمن أنه يمكن حتى للمبتدئين إنشاء مستودع بيانات واستخدامه من خلال بضع نقرات فقط. تتمثل إحدى الطرق السهلة لبدء الترحيل إلى مخزن بيانات سحابية في تشغيل مخزن بيانات السحابة في مكان العمل، خلف جدار حماية مركز البيانات الذي يتوافق مع سيادة البيانات ومتطلبات الأمان.
بالإضافة إلى ذلك، تتبع معظم مستودعات البيانات السحابية نموذج الدفع أولاً بأول، والذي يحقق توفيرًا إضافيًا في التكاليف للعملاء.
سواء كان مستودع البيانات جزءًا من فِرق تكنولوجيا المعلومات أو هندسة البيانات أو تحليلات الأعمال أو علوم البيانات، تتنوع احتياجات المستخدمين المختلفين عبر المؤسسة لمستودع البيانات.
تلبي بنية البيانات الحديثة هذه الاحتياجات المختلفة من خلال توفير طريقة لإدارة جميع أنواع البيانات وأحمال العمل والتحليل. وتتألف من أنماط بنى مع المكونات الضرورية المتكاملة للعمل معًا بما يتماشى مع أفضل ممارسات المجال. يتضمن مستودع البيانات الحديث:
يمكن لمستودع البيانات الحديث تبسيط مهام سير عمل البيانات بطريقة لا تستطيع المستودعات الأخرى القيام بها. وهذا يعني أنه يمكن للجميع، بدءًا من المحللين ومهندسي البيانات وحتى علماء البيانات وفرق تكنولوجيا المعلومات، أداء وظائفهم بشكل أكثر فعالية ومتابعة العمل المبتكر الذي يدفع المؤسسة إلى الأمام، دون تأخير وتعقيد لا حصر له.
عندما تشرع مؤسسة في تصميم مستودع بيانات، يجب أن تبدأ بتحديد متطلباتها التجارية المحددة، والاتفاق على النطاق، وصياغة تصميم مفاهيمي. ويمكن للمؤسسة بعد ذلك إنشاء التصميم المنطقي والمادي لمستودع البيانات. يتضمن التصميم المنطقي العلاقات بين الكائنات، ويتضمن التصميم المادي أفضل طريقة لتخزين الكائنات واستردادها. كما يتضمن التصميم المادي أيضًا عمليات النقل والنسخ الاحتياطي والاسترداد.
يجب أن يعالج أي تصميم لمستودع البيانات ما يلي:
يرتكز العامل الأساسي في التصميم على احتياجات المستخدمين. ويهتم معظم المستخدمين بإجراء التحليلات والبحث في البيانات بشكل إجمالي، بدلاً من التعامل مع المعاملات الفردية. ومع ذلك، لا يعرف المستخدمون غالبًا ما يريدون حتى تظهر حاجة محددة. وبالتالي، ينبغي أن تتضمن عملية التخطيط استكشافات كافية لتوقُّع الاحتياجات. أخيرًا، يجب أن يتيح تصميم مستودع البيانات مساحة للتوسّع والتطور لمواكبة الاحتياجات المتطورة للمستخدمين.
توفّر مستودعات البيانات في السحابة نفس الخصائص والمزايا لمستودعات البيانات المحلية ولكن مع المزايا الإضافية للحوسبة السحابية ― مثل المرونة، والتوسُّع، وسهولة الاستخدام، والأمان، والتكاليف المنخفضة. تسمح مستودعات بيانات السحابة للمؤسسات بالتركيز فقط على استخراج القيمة من بياناتها بدلاً من الاضطرار إلى إنشاء وإدارة البنية التحتية للأجهزة والبرمجيات لدعم مستودع البيانات.
تستخدم المؤسسات كلاً من بحيرات البيانات ومستودعات البيانات مع الأحجام الكبيرة من البيانات من مصادر مختلفة. ويعتمد اختيار وقت استخدام واحد أو آخر على ما تنوي المؤسسة فعله بالبيانات. فيما يلي وصف لأفضل طريقة لاستخدام كل منها:
مستودعات البيانات هي بيئات ارتباطية تُستخدم لتحليلات البيانات، خاصةً تحليلات البيانات القديمة. تستخدم المؤسسات مستودعات البيانات لاكتشاف الأنماط والعلاقات في بياناتها التي تتطور بمرور الوقت.
في المقابل، تُستخدم بيئات المعاملات لمعالجة المعاملات بشكل مستمر وتُستخدم بشكل شائع لإدخال الأوامر والمعاملات المالية ومعاملات البيع بالتجزئة. ولا تعتمد هذه البيئات على البيانات القديمة؛ في الواقع، غالبًا ما يتم أرشفة البيانات القديمة، في بيئات OLTP، أو حذفها ببساطة لتحسين الأداء.
وتختلف مستودعات البيانات وأنظمة OLTP اختلافًا كبيرًا.
مستودع البيانات | نظام OLTP | |
---|---|---|
عبء العمل | استيعاب الاستعلامات المخصّصة وتحليلات البيانات | دعم عمليات محددة مسبقًا فقط |
تعديلات البيانات | إجراء تحديثات تلقائيًا على أساس منتظم | إجراء تحديثات من قِبل المستخدمين لإصدار بيانات فردية |
تصميم المخططات | استخدام مخططات مُعاد تنظيمها جزئيًا لتحسين الأداء | استخدام مخططات تم تنظيمها تمامًا لضمان اتساق البيانات |
مسح البيانات | يشمل آلاف الصفوف إلى الملايين منها | يصل فقط إلى عدد قليل من السجلات في المرة الواحدة |
البيانات القديمة | التخزين عدة أشهر أو سنوات من البيانات | تخزين البيانات لمدة أسابيع أو أشهر فقط |
يتمثل أحدث تكرار لمستودع البيانات في مستودع البيانات الذاتي، والذي يعتمد على الذكاء الاصطناعي والتعلُّم الآلي للحد من المهام اليدوية وتبسيط عملية الإعداد والنشر وإدارة البيانات. لا يتطلب مستودع البيانات الذاتي كخدمة في السحابة أي إدارة لقواعد البيانات أو تهيئة الأجهزة أو الإدارة أو تثبيت البرمجيات من قِبل الأشخاص.
يتم إنشاء مستودع البيانات والنسخ الاحتياطي وتصحيح قاعدة البيانات وترقيتها، وكذلك توسيع نطاق قاعدة البيانات أو تقليله تلقائيًا - مع توفُّر نفس المرونة، وقابلية التطوير، وسهولة الاستخدام، وخفض التكاليف التي توفرها الأنظمة الأساسية السحابية. يحد Oracle Autonomous Data Warehouse من التعقيد ويوفّر سرعة النشر ويحرر الموارد، حتى تتمكن المؤسسات من التركيز على الأنشطة التي تضيف قيمة للأعمال.
Oracle Autonomous Data Warehouse عبارة عن مستودع بيانات سهل الاستخدام ومستقل تمامًا يسمح بالتوسُّع بشكل مرن، ويقدم أداءً سريعًا للاستعلام ولا يتطلب إدارة قاعدة البيانات. ويتسم الإعداد لخدمة Oracle Autonomous Data Warehouse بالبساطة والسرعة الشديدة.