مستوى Oracle Cloud المجاني (Free Tier)

استمتع بإنشاء التطبيقات واختبارها ونشرها على Oracle Cloud مجانًا.

ما المقصود بـ ETL؟

الاستخراج والتحويل والتحميل (ETL) هي العملية التي تستخدمها المؤسسات التي تعتمد على البيانات لجمع البيانات من مصادر متعددة ثم جمعها معًا لدعم الاكتشاف والإبلاغ والتحليل واتخاذ القرار.

يمكن أن تكون مصادر البيانات متنوعة للغاية من حيث النوع والتنسيق والحجم والموثوقية، لذا يلزم معالجة البيانات لتكون مفيدة عند جمعها معًا. قد تكون مخازن البيانات الهدف قواعد بيانات أو مستودعات بيانات أو بحيرات بيانات اعتمادًا على الأهداف والتنفيذ الفني.

الخطوات الثلاث المميزة لـ ETL

استخراج
أثناء الاستخراج، تحدد ETL البيانات ونسخها من مصادرها، حتى تتمكن من نقل البيانات إلى مخزن البيانات الهدف. يمكن الحصول على البيانات من مصادر منظمة وغير منظمة، بما في ذلك المستندات والبريد الإلكتروني وتطبيقات الأعمال وقواعد البيانات والأجهزة وأجهزة الاستشعار والأطراف الخارجية والمزيد.

تحويل
نظرًا لأن البيانات المستخرجة أولية في شكلها الأصلي، فيجب تخطيطها وتحويلها لإعدادها لمخزن البيانات النهائي. الاستخراج والتحويل والتحميل (ETL) هي العملية التي تستخدمها المؤسسات التي تعتمد على البيانات لجمع البيانات من مصادر متعددة ثم جمعها معًا لدعم الاكتشاف والإبلاغ والتحليل واتخاذ القرار.

التحميل
تقوم ETL بنقل البيانات المحولة إلى مخزن البيانات الهدف. يمكن أن تستتبع هذه الخطوة التحميل الأولي لكل بيانات المصدر، أو يمكن تحميل التغييرات التزايدية في بيانات المصدر. يمكنك تحميل البيانات في الوقت الفعلي أو في دفعات مجدولة.

ELT أو ETL: ما الفرق؟

إن خطوة التحول هي الأكثر تعقيدًا في عملية ETL. وبالتالي، فإن ETL وELT يختلفان في نقطتين رئيسيتين:

  • عندما يحدث التحويل
  • مكان التحول

في مخزن البيانات التقليدي، يتم استخراج البيانات أولاً من "الأنظمة المصدر" (أنظمة ERP وأنظمة إدارة علاقات العملاء (CRM)، إلخ). تعتمد أدوات OLAP واستعلامات SQL على توحيد أبعاد مجموعات البيانات للحصول على نتائج مجمعة. وهذا يعني أن البيانات يجب أن تخضع لسلسلة من عمليات التحويل.

تقليدياً، تم إجراء هذه التحويلات قبل تحميل البيانات إلى النظام الهدف، وعادةً ما يكون مستودع بيانات علائقي.

ولكن مع تطور تكنولوجيات تخزين البيانات ومعالجتها الأساسية التي تدعم تخزين البيانات، أصبح من الممكن إحداث تحولات داخل النظام المستهدف. تتضمن كلا عمليتي ETL وELT مناطق ترحيل. في ETL، توجد هذه المناطق في الأداة، سواء كانت مملوكة ملكية أو مخصصة. وتوجد بين النظام المصدر (على سبيل المثال، نظام CRM) والنظام الهدف (مستودع البيانات).

وعلى العكس من ذلك، ففي ظل ELTs، توجد منطقة الترحيل في مستودع البيانات، ويقوم محرك قاعدة البيانات الذي يدعم نظام إدارة قاعدة البيانات بإجراء عمليات التحويل، على عكس أداة ETL. لذا،، فإن إحدى النتائج المباشرة لتعلم اللغة الإنجليزية هي أنك تفقد وظائف إعداد البيانات وتنظيفها التي توفرها أدوات ETL للمساعدة في عملية تحويل البيانات.

مستودعات بيانات المؤسسة وETL

عادةً ما تُستخدم أدوات الاستخراج والتحويل والتحميل (ETL) في الأساس لتقديم البيانات إلى مستودعات بيانات المؤسسة التي تدعم تطبيقات التحليل الذكي للأعمال (BI). تم تصميم مستودعات البيانات هذه لتمثل مصدرًا موثوقًا به للحقيقة حول كل ما يحدث في مؤسسة عبر جميع الأنشطة. يتم تنظيم البيانات الموجودة في هذه المستودعات بعناية باستخدام مخططات صارمة وبيانات تعريف وقواعد تحكم مراجعة البيانات.

يجب أن تفي أدوات ETL الخاصة بمستودعات بيانات المؤسسة بمتطلبات تكامل البيانات ، مثل الأحمال الدفعية عالية الأداء وعالية الأداء؛ عمليات التكامل التي تحركها الأحداث والتغذية المتدرجة؛ التحولات القابلة للبرمجة و Orchestrations حتى يتمكنوا من التعامل مع عمليات التحويل ومهام سير العمل الأكثر تطلبًا والحصول على موصلات لمصادر البيانات الأكثر تنوعًا.

بعد تحميل البيانات، لديك إستراتيجيات متعددة للاحتفاظ بمزامنتها بين مخازن البيانات المصدر والهدف. يمكنك إعادة تحميل مجموعة البيانات الكاملة بشكل دوري أو جدولة التحديثات الدورية لأحدث البيانات أو الالتزام بالحفاظ على التزامن الكامل بين مستودع البيانات المصدر والمستودع الهدف. ويُشار إلى هذا التكامل في الوقت الحقيقي باسم التقاط بيانات التغيير (CDC). بالنسبة لهذه العملية المتقدمة، تحتاج أدوات الاستخراج والتحويل والتحميل إلى فهم دلالات العمليات لقواعد البيانات المصدر وتحويل هذه المعاملات بشكل صحيح إلى مستودع البيانات الهدف.

ETL ومخازن البيانات

مخازن البيانات هي مخازن بيانات مستهدفة أصغر وأكثر تركيزًا من مستودعات بيانات المؤسسات. فيمكنهم، على سبيل المثال، التركيز على المعلومات المتعلقة بقسم واحد أو خط إنتاج واحد. وبسبب ذلك، غالبًا ما يكون مستخدمو أدوات الاستخراج والتحويل والتحميل (ETL) لمتاجر البيانات متخصصين في مجال الأعمال (LOB) ومحللو البيانات و/أو علماء البيانات.

يجب أن يكون موظفو الأعمال ومديرو البيانات قادرون على استخدام أدوات الاستخراج والتحويل والتحميل لمتاجر البيانات بدلاً من المبرمجين وموظفي تكنولوجيا المعلومات. وبالتالي، يجب أن يكون لهذه الأدوات سير عمل مرئي لتسهيل إعداد خطوط أعمال ETL.

تعرف على تصميم تدفق البيانات بدون تعليمات برمجية

ETL أو ELT وبحيرات البيانات

بحيرات البيانات تتبع نمطًا مختلفًا عن مستودعات البيانات ومخازن البيانات. تقوم بحيرات البيانات بشكل عام بتخزين بياناتها في وحدات تخزين الكائنات أو أنظمة الملفات الموزعة من Hadoop (HDFS)، ولذا يمكنها تخزين بيانات أقل هيكلًا بدون مخطط قاعدة بيانات؛ وهي تدعم العديد من الأدوات للاستعلام عن تلك البيانات غير المهيكلة.

هناك نمط إضافي يسمح بذلك وهو الاستخراج والتحميل والتحويل (ELT)، حيث يتم تخزين البيانات "كما هي" أولاً، وسيتم تحويلها وتحليلها ومعالجتها بعد تسجيل البيانات في بحيرة البيانات. يوفر هذا النمط العديد من الميزات.

  • يتم تسجيل جميع البيانات؛ ولا يتم فقد أية إشارة بسبب التجميع أو الترشيح.
  • يمكن استيعاب البيانات بسرعة كبيرة، وهي مفيدة في تدفق Internet of Things (IoT) وتحليلات السجلات وقياسات مواقع الويب وغير ذلك.
  • وهو يتيح اكتشاف الاتجاهات التي لم تكن متوقعة وقت الالتقاط.
  • وهي تتيح نشر تقنيات الذكاء الاصطناعي (AI) الجديدة التي تتفوق على اكتشاف الأنماط في مجموعات البيانات الكبيرة وغير المنظمة.

تتضمن أدوات الاستخراج والتحويل والتحميل (ETL) لحيرات البيانات أدوات تكامل البيانات المرئية، لأنها فعالة لعلماء البيانات ومهندسي البيانات. من الأدوات الإضافية التي تُستخدم غالبًا في بنية مستودع البيانات ما يلي:

  • خدمات تدفق السحابة التي يمكنها استيعاب تدفقات كبيرة من البيانات في الوقت الفعلي في بحيرات البيانات للمراسلة وسجلات التطبيقات والقياس التشغيلي عن بُعد وتتبع بيانات مسار الويب ومعالجة الأحداث وتحليلات الأمان. يضمن التوافق مع Kafka أن تسترجع هذه الخدمات البيانات من مصادر بيانات شبه لا نهائية.
  • خدمات السحابة المستندة إلى Spark التي يمكنها تنفيذ مهام معالجة البيانات وتحويلها بسرعة على مجموعات البيانات الكبيرة للغاية. يمكن لخدمات Spark تحميل مجموعات البيانات من تخزين الكائنات أو HDFS، ومعالجة تلك المجموعات وتحويلها في الذاكرة عبر مجموعات قابلة للتوسيع من طبعات الحوسبة، وإعادة كتابة المخرجات إلى مستودع البيانات أو إلى مخازن البيانات و/أو مستودعات البيانات.

حالات استخدام ETL

تعتبر عملية ETL أساسية للعديد من الصناعات بسبب قدرتها على استيعاب البيانات بسرعة وموثوقة في بحيرات البيانات بما يتوافق مع علوم البيانات والتحليلات، مع إنشاء نماذج عالية الجودة. بإمكان حلول ETL أيضًا تحميل بيانات المعاملات وتحويلها على نطاق واسع لإنشاء عرض منظم من أحجام البيانات الكبيرة. يتيح هذا للشركات تمثيل اتجاهات الصناعة مرئيًا وتوقعها. تعتمد العديد من الصناعات على الاستخراج والتحويل والتحميل (ETL) لتمكين الرؤى القابلة للتنفيذ واتخاذ القرارات السريعة والكفاءة الأكبر.

الخدمات المالية
تجمع مؤسسات الخدمات المالية كميات كبيرة من البيانات المهيكلة وغير المهيكلة لاستخلاص رؤى من سلوك المستهلكين. يمكن لهذه الرؤى تحليل المخاطر وتحسين الخدمات المالية للبنوك وتحسين الأنظمة الأساسية عبر الإنترنت، حتى تزويد أجهزة الصراف الآلي بالنقدية.

النفط والغاز
تستخدم صناعات النفط والغاز حلول الاستخراج والتحويل والتحميل لتوليد توقعات بشأن الاستخدام والتخزين والاتجاهات في مناطق جغرافية معينة. تعمل عملية الاستخراج والتحويل والتحميل (ETL) على جمع أكبر قدر ممكن من المعلومات من جميع أجهزة الاستشعار في موقع الاستخراج والعملية التي تسهل قراءة المعلومات.

يمكن لحلول Automotive
ETL أن تمكّن التجار والمصنعين من فهم أنماط المبيعات ومعايرة حملاتها التسويقية وتجديد المخزون ومتابعة العملاء المحتملين.

الاتصالات
مع الحجم غير المسبوق ومجموعة متنوعة من البيانات التي يتم إنتاجها اليوم ، يعتمد مزودو الاتصالات على حلول ETL لإدارة هذه البيانات وفهمها بشكل أفضل. بمجرد معالجة هذه البيانات وتحليلها، يمكن للشركات استخدامها لتحسين الإعلان والوسائط الاجتماعية وتقنية SEO ورضا العملاء والربحية وغير ذلك الكثير.

الرعاية الصحية
مع الحاجة إلى خفض التكاليف مع تحسين الرعاية أيضًا، تستخدم صناعة الرعاية الصحية حلول ETL لإدارة سجلات المريض وجمع معلومات التأمين وتلبية المتطلبات التنظيمية المتطورة.

علوم الحياة
تعتمد المختبرات السريرية على حلول ETL والذكاء الاصطناعي (AI) لمعالجة أنواع مختلفة من البيانات التي تنتجها المؤسسات البحثية. فعلى سبيل المثال، يتطلب التعاون على تطوير اللقاحات جمع كميات ضخمة من البيانات ومعالجتها وتحليلها.

القطاع العام
بفضل إمكانيات Internet of Things (IoT) التي تظهر بسرعة شديدة، تستخدم المدن الذكية ETL وقوة الذكاء الاصطناعي لتحسين حركة المرور ومراقبة جودة المياه وتحسين وقوف السيارات والمزيد.

منتجات ETL وحلولها

مجموعة تصميمات موجهة إلى الخدمة (SOA)
كيف يمكنك تقليل تعقيد تكامل التطبيق؟ بفضل إمكانات التكامل السحابي والجوّال والمحلي وإنترنت الأشياء المبسّطة - كل ذلك ضمن نظام أساسي واحد - يمكن لهذا الحل توفير وقت أسرع للتكامل وزيادة الإنتاجية، إلى جانب انخفاض إجمالي تكلفة الملكية (TCO). تستخدم العديد من تطبيقات المؤسسة، بما في ذلك Oracle E-Business Suite، هذا المنتج بكثافة لتنسيق تدفقات البيانات.

GoldenGate
غالبًا ما يتطلب التحول الرقمي نقل البيانات من مكان رصدها إلى مكان الحاجة إليها، وقد تم تصميم GoldenGate لتبسيط هذه العملية. Oracle GoldenGate هو حل نسخ بيانات عالي السرعة من أجل التكامل في الوقت الحقيقي بين قواعد البيانات غير المتجانسة الموجودة في مكان العمل أو في السحابة أو في قاعدة بيانات مستقلة. تعمل GoldenGate على تحسين توافر البيانات دون التأثير على أداء النظام، مما يوفر الوصول إلى البيانات في الوقت الفعلي وإعداد التقارير التشغيلية.

يوفر تدفق السحابة
حل تدفق السحابة حلاً قويًا ومُدارًا وقابلاً للتوسع وكاملاً لاستيعاب تدفقات البيانات كبيرة الحجم واستهلاكها في الوقت الفعلي. استخدم هذه الخدمة للمراسلة أو سجلات التطبيق أو القياس التشغيلي عن بُعد أو بيانات النقر على الويب أو أي مثيل آخر يتم فيه إنتاج البيانات ومعالجتها بشكل مستمر ومتسلسل في نموذج مراسلة النشر والاشتراك. وهي متوافقة تمامًا مع Spark وKafka.