الاستخراج والتحويل والتحميل (ETL) هي العملية التي تستخدمها المؤسسات التي تعتمد على البيانات لجمع البيانات من مصادر متعددة ثم جمعها معًا لدعم الاكتشاف والإبلاغ والتحليل واتخاذ القرار.
يمكن أن تكون مصادر البيانات متنوعة للغاية من حيث النوع والتنسيق والحجم والموثوقية، لذا يلزم معالجة البيانات لتكون مفيدة عند جمعها معًا. قد تكون مخازن البيانات الهدف قواعد بيانات أو مستودعات بيانات أو بحيرات بيانات اعتمادًا على الأهداف والتنفيذ الفني.
استخراج
أثناء الاستخراج، تحدد ETL البيانات ونسخها من مصادرها، حتى تتمكن من نقل البيانات إلى مخزن البيانات الهدف. يمكن الحصول على البيانات من مصادر منظمة وغير منظمة، بما في ذلك المستندات والبريد الإلكتروني وتطبيقات الأعمال وقواعد البيانات والأجهزة وأجهزة الاستشعار والأطراف الخارجية والمزيد.
تحويل
نظرًا لأن البيانات المستخرجة أولية في شكلها الأصلي، فيجب تخطيطها وتحويلها لإعدادها لمخزن البيانات النهائي. الاستخراج والتحويل والتحميل (ETL) هي العملية التي تستخدمها المؤسسات التي تعتمد على البيانات لجمع البيانات من مصادر متعددة ثم جمعها معًا لدعم الاكتشاف والإبلاغ والتحليل واتخاذ القرار.
التحميل
تقوم ETL بنقل البيانات المحولة إلى مخزن البيانات الهدف. يمكن أن تستتبع هذه الخطوة التحميل الأولي لكل بيانات المصدر، أو يمكن تحميل التغييرات التزايدية في بيانات المصدر. يمكنك تحميل البيانات في الوقت الفعلي أو في دفعات مجدولة.
إن خطوة التحول هي الأكثر تعقيدًا في عملية ETL. وبالتالي، فإن ETL وELT يختلفان في نقطتين رئيسيتين:
في مخزن البيانات التقليدي، يتم استخراج البيانات أولاً من "الأنظمة المصدر" (أنظمة ERP وأنظمة إدارة علاقات العملاء (CRM)، إلخ). تعتمد أدوات OLAP واستعلامات SQL على توحيد أبعاد مجموعات البيانات للحصول على نتائج مجمعة. وهذا يعني أن البيانات يجب أن تخضع لسلسلة من عمليات التحويل.
تقليدياً، تم إجراء هذه التحويلات قبل تحميل البيانات إلى النظام الهدف، وعادةً ما يكون مستودع بيانات علائقي.
ولكن مع تطور تكنولوجيات تخزين البيانات ومعالجتها الأساسية التي تدعم تخزين البيانات، أصبح من الممكن إحداث تحولات داخل النظام المستهدف. تتضمن كلا عمليتي ETL وELT مناطق ترحيل. في ETL، توجد هذه المناطق في الأداة، سواء كانت مملوكة ملكية أو مخصصة. وتوجد بين النظام المصدر (على سبيل المثال، نظام CRM) والنظام الهدف (مستودع البيانات).
وعلى العكس من ذلك، ففي ظل ELTs، توجد منطقة الترحيل في مستودع البيانات، ويقوم محرك قاعدة البيانات الذي يدعم نظام إدارة قاعدة البيانات بإجراء عمليات التحويل، على عكس أداة ETL. لذا،، فإن إحدى النتائج المباشرة لتعلم اللغة الإنجليزية هي أنك تفقد وظائف إعداد البيانات وتنظيفها التي توفرها أدوات ETL للمساعدة في عملية تحويل البيانات.
عادةً ما تُستخدم أدوات الاستخراج والتحويل والتحميل (ETL) في الأساس لتقديم البيانات إلى مستودعات بيانات المؤسسة التي تدعم تطبيقات التحليل الذكي للأعمال (BI). تم تصميم مستودعات البيانات هذه لتمثل مصدرًا موثوقًا به للحقيقة حول كل ما يحدث في مؤسسة عبر جميع الأنشطة. يتم تنظيم البيانات الموجودة في هذه المستودعات بعناية باستخدام مخططات صارمة وبيانات تعريف وقواعد تحكم مراجعة البيانات.
يجب أن تفي أدوات ETL الخاصة بمستودعات بيانات المؤسسة بمتطلبات تكامل البيانات ، مثل الأحمال الدفعية عالية الأداء وعالية الأداء؛ عمليات التكامل التي تحركها الأحداث والتغذية المتدرجة؛ التحولات القابلة للبرمجة و Orchestrations حتى يتمكنوا من التعامل مع عمليات التحويل ومهام سير العمل الأكثر تطلبًا والحصول على موصلات لمصادر البيانات الأكثر تنوعًا.
بعد تحميل البيانات، لديك إستراتيجيات متعددة للاحتفاظ بمزامنتها بين مخازن البيانات المصدر والهدف. يمكنك إعادة تحميل مجموعة البيانات الكاملة بشكل دوري أو جدولة التحديثات الدورية لأحدث البيانات أو الالتزام بالحفاظ على التزامن الكامل بين مستودع البيانات المصدر والمستودع الهدف. ويُشار إلى هذا التكامل في الوقت الحقيقي باسم التقاط بيانات التغيير (CDC). بالنسبة لهذه العملية المتقدمة، تحتاج أدوات الاستخراج والتحويل والتحميل إلى فهم دلالات العمليات لقواعد البيانات المصدر وتحويل هذه المعاملات بشكل صحيح إلى مستودع البيانات الهدف.
مخازن البيانات هي مخازن بيانات مستهدفة أصغر وأكثر تركيزًا من مستودعات بيانات المؤسسات. فيمكنهم، على سبيل المثال، التركيز على المعلومات المتعلقة بقسم واحد أو خط إنتاج واحد. وبسبب ذلك، غالبًا ما يكون مستخدمو أدوات الاستخراج والتحويل والتحميل (ETL) لمتاجر البيانات متخصصين في مجال الأعمال (LOB) ومحللو البيانات و/أو علماء البيانات.
يجب أن يكون موظفو الأعمال ومديرو البيانات قادرون على استخدام أدوات الاستخراج والتحويل والتحميل لمتاجر البيانات بدلاً من المبرمجين وموظفي تكنولوجيا المعلومات. وبالتالي، يجب أن يكون لهذه الأدوات سير عمل مرئي لتسهيل إعداد خطوط أعمال ETL.
بحيرات البيانات تتبع نمطًا مختلفًا عن مستودعات البيانات ومخازن البيانات. تقوم بحيرات البيانات بشكل عام بتخزين بياناتها في وحدات تخزين الكائنات أو أنظمة الملفات الموزعة من Hadoop (HDFS)، ولذا يمكنها تخزين بيانات أقل هيكلًا بدون مخطط قاعدة بيانات؛ وهي تدعم العديد من الأدوات للاستعلام عن تلك البيانات غير المهيكلة.
هناك نمط إضافي يسمح بذلك وهو الاستخراج والتحميل والتحويل (ELT)، حيث يتم تخزين البيانات "كما هي" أولاً، وسيتم تحويلها وتحليلها ومعالجتها بعد تسجيل البيانات في بحيرة البيانات. يوفر هذا النمط العديد من الميزات.
تتضمن أدوات الاستخراج والتحويل والتحميل (ETL) لحيرات البيانات أدوات تكامل البيانات المرئية، لأنها فعالة لعلماء البيانات ومهندسي البيانات. من الأدوات الإضافية التي تُستخدم غالبًا في بنية مستودع البيانات ما يلي:
تعتبر عملية ETL أساسية للعديد من الصناعات بسبب قدرتها على استيعاب البيانات بسرعة وموثوقة في بحيرات البيانات بما يتوافق مع علوم البيانات والتحليلات، مع إنشاء نماذج عالية الجودة. بإمكان حلول ETL أيضًا تحميل بيانات المعاملات وتحويلها على نطاق واسع لإنشاء عرض منظم من أحجام البيانات الكبيرة. يتيح هذا للشركات تمثيل اتجاهات الصناعة مرئيًا وتوقعها. تعتمد العديد من الصناعات على الاستخراج والتحويل والتحميل (ETL) لتمكين الرؤى القابلة للتنفيذ واتخاذ القرارات السريعة والكفاءة الأكبر.
الخدمات المالية
تجمع مؤسسات الخدمات المالية كميات كبيرة من البيانات المهيكلة وغير المهيكلة لاستخلاص رؤى من سلوك المستهلكين. يمكن لهذه الرؤى تحليل المخاطر وتحسين الخدمات المالية للبنوك وتحسين الأنظمة الأساسية عبر الإنترنت، حتى تزويد أجهزة الصراف الآلي بالنقدية.
النفط والغاز
تستخدم صناعات النفط والغاز حلول الاستخراج والتحويل والتحميل لتوليد توقعات بشأن الاستخدام والتخزين والاتجاهات في مناطق جغرافية معينة. تعمل عملية الاستخراج والتحويل والتحميل (ETL) على جمع أكبر قدر ممكن من المعلومات من جميع أجهزة الاستشعار في موقع الاستخراج والعملية التي تسهل قراءة المعلومات.
يمكن لحلول Automotive
ETL أن تمكّن التجار والمصنعين من فهم أنماط المبيعات ومعايرة حملاتها التسويقية وتجديد المخزون ومتابعة العملاء المحتملين.
الاتصالات
مع الحجم غير المسبوق ومجموعة متنوعة من البيانات التي يتم إنتاجها اليوم ، يعتمد مزودو الاتصالات على حلول ETL لإدارة هذه البيانات وفهمها بشكل أفضل. بمجرد معالجة هذه البيانات وتحليلها، يمكن للشركات استخدامها لتحسين الإعلان والوسائط الاجتماعية وتقنية SEO ورضا العملاء والربحية وغير ذلك الكثير.
الرعاية الصحية
مع الحاجة إلى خفض التكاليف مع تحسين الرعاية أيضًا، تستخدم صناعة الرعاية الصحية حلول ETL لإدارة سجلات المريض وجمع معلومات التأمين وتلبية المتطلبات التنظيمية المتطورة.
علوم الحياة
تعتمد المختبرات السريرية على حلول ETL والذكاء الاصطناعي (AI) لمعالجة أنواع مختلفة من البيانات التي تنتجها المؤسسات البحثية. فعلى سبيل المثال، يتطلب التعاون على تطوير اللقاحات جمع كميات ضخمة من البيانات ومعالجتها وتحليلها.
القطاع العام
بفضل إمكانيات Internet of Things (IoT) التي تظهر بسرعة شديدة، تستخدم المدن الذكية ETL وقوة الذكاء الاصطناعي لتحسين حركة المرور ومراقبة جودة المياه وتحسين وقوف السيارات والمزيد.
مجموعة تصميمات موجهة إلى الخدمة (SOA)
كيف يمكنك تقليل تعقيد تكامل التطبيق؟ بفضل إمكانات التكامل السحابي والجوّال والمحلي وإنترنت الأشياء المبسّطة - كل ذلك ضمن نظام أساسي واحد - يمكن لهذا الحل توفير وقت أسرع للتكامل وزيادة الإنتاجية، إلى جانب انخفاض إجمالي تكلفة الملكية (TCO). تستخدم العديد من تطبيقات المؤسسة، بما في ذلك Oracle E-Business Suite، هذا المنتج بكثافة لتنسيق تدفقات البيانات.
GoldenGate
غالبًا ما يتطلب التحول الرقمي نقل البيانات من مكان رصدها إلى مكان الحاجة إليها، وقد تم تصميم GoldenGate لتبسيط هذه العملية. Oracle GoldenGate هو حل نسخ بيانات عالي السرعة من أجل التكامل في الوقت الحقيقي بين قواعد البيانات غير المتجانسة الموجودة في مكان العمل أو في السحابة أو في قاعدة بيانات مستقلة. تعمل GoldenGate على تحسين توافر البيانات دون التأثير على أداء النظام، مما يوفر الوصول إلى البيانات في الوقت الفعلي وإعداد التقارير التشغيلية.
يوفر تدفق السحابة
حل تدفق السحابة حلاً قويًا ومُدارًا وقابلاً للتوسع وكاملاً لاستيعاب تدفقات البيانات كبيرة الحجم واستهلاكها في الوقت الفعلي. استخدم هذه الخدمة للمراسلة أو سجلات التطبيق أو القياس التشغيلي عن بُعد أو بيانات النقر على الويب أو أي مثيل آخر يتم فيه إنتاج البيانات ومعالجتها بشكل مستمر ومتسلسل في نموذج مراسلة النشر والاشتراك. وهي متوافقة تمامًا مع Spark وKafka.