مصدر البيانات الكبيرة المفتوح

سيكون من الصعب كتابة قصة البيانات الكبيرة دون تضمين مصدر مفتوح - حيث يرتبط الاثنان معًا. كان تطوير البرامج مفتوحة المصدر عاملاً ضخمًا في تطور البيانات الكبيرة. ولا تزال تقنية المصدر المفتوح جزءًا لا يتجزأ من النظام البيئي للبيانات الكبيرة بسبب قدرتها على الابتكار السريع. في الواقع، تمثل الأسماء الأكثر أهمية في برامج البيانات الكبيرة - Hadoop وSpark وCassandra وKafka - مصدرًا مفتوحًا.

كيف تستخدم الشركات مصدرًا مفتوحًا للبيانات الكبيرة؟

على الرغم من أن البرامج مفتوحة المصدر لديها سمعة كونها مفضلة من الهواة ومطوري الهواة، إلا أن عالم الأعمال هذا كان يعتمد مصدرًا مفتوحًا في البيئات ذات المهام الحرجة لبعض الوقت.

تتضمن بعض الأسباب التي تجعل الشركات تختار البرامج مفتوحة المصدر ما يلي:

  • الميزات التنافسية والإمكانات التقنية
  • جودة الحلول
  • القدرة على تخصيص المشكلات وإصلاحها
  • حاجز منخفض للدخول

ويمكن القول إن إحدى أكبر مزايا المصدر المفتوح هي مجتمع المطورين الكبير والمكرس. تحتوي المشروعات المفتوحة المصدر الأكثر شيوعًا على قاعدة مطورين ضخمة تعمل على تصحيح التكنولوجيا وتحسينها. يتم رسم المطورين لفتح المصدر لميزاته التنافسية وقدراته المبتكرة، والتي هي قيمة خاصة بالمقارنة مع ما يمكن للبرمجيات التقليدية إنشاء.

المصدر المفتوح مفيد بشكل خاص للشركات التي لا تمتلك التطوير الداخلي أو موارد تكنولوجيا المعلومات لبناء برامجها الخاصة. وبدلاً من ذلك، تتحول الشركات التي تمتلك هذه الموارد إلى مصدر مفتوح لمنح موظفيها التكنولوجيا المتطورة التي يهتمون بها بدرجة أكبر.

كيف ترى الشركات مصدرًا مفتوحًا؟

تحظى تقنية المصدر المفتوح بوعد كبير. لكنها ليست بدون تحديات. وفقًا لدراسة North Bridge و Black Duck Future of Open Source لعام 2016، لا يوجد لدى ما يقرب من 33% من الشركات عملية لتحديد الثغرات المعروفة مفتوحة المصدر أو تتبعها أو إصلاحها، والتي يمكن أن تتركها مفتوحة للتهديدات الأمنية.

كان المصدر المفتوح مفيدًا للغاية لمجتمع البيانات الكبيرة. بفضل رمزها الجاهز للاستخدام، مكّنت البرمجيات مفتوحة المصدر الشركات من طرح المنتجات في السوق بشكل أسرع. لكنها كانت دائما تنطوي على قدر معين من المخاطر. OpenSSL تعتبر الثغرات الأمنية الصعبة في عام 2014 مثالاً واحداً على ثغراتها.

على الرغم من الفوائد المكتسبة من وجود العديد من المساهمين، فإن البرامج مفتوحة المصدر ليست محصنة ضد أخطاء البرمجة العادية ومضاعفات الأمان. لا يتتبع معظم مهندسي البرمجيات استخدام المصادر المفتوحة، مما يترك العديد من الشركات غير مدركة لمخاطر الأمان والامتثال الناتجة التي قد تواجهها.

ولكي يكون المصدر المفتوح قابلاً للاستخدام بشكل كامل وفعال، تحتاج معظم الشركات إلى التكامل والدعم إلى حد ما. وهو أمر أسهل من القيام به، لأنه بمعنى أن المصدر المفتوح لا يكتمل أبدا. هناك دائمًا شيء جديد للعمل عليه. بالإضافة إلى ذلك، فغالبًا ما لا تكون المنتجات مفتوحة المصدر سهلة الاستخدام تمامًا. قد يتطلب استخدام المصدر المفتوح التدريب. يعتبر التوافق مع التطبيقات والأجهزة الموجودة مصدر قلق آخر. تنتهي معظم الشركات إلى تبني مصدر مفتوح من خلال شركة أخرى.

تعمل شركات مثل Oracle وDatabricks وDataStax مع المصدر المفتوح بهذه الطريقة. جلبت هذه الشركات مصدرًا مفتوحًا إلى المؤسسة وجعلها قابلة للاستخدام بالكامل. هناك فائدة كبيرة لهذا لأن هذه الشركات تضيف قيمة إلى المصدر المفتوح من خلال الالتزامات والتحسينات الأخرى المختلفة.

في مؤتمر القمة مفتوح المصدر لعام 2017، أقر مؤسس Linux Linus Torvalds بتأثير الشركات والأعمال التي تم تنفيذها على مشاريع مفتوحة المصدر من قِبل مطوري الشركات ورحبوا بها. وقال "من المهم للغاية أن تكون هناك شركات ذات مصدر مفتوح". "إنه شيء واحد كنت سعيدًا به".

كيف تستخدم Oracle Big Data مصدرًا مفتوحًا؟

في عام 2017، تم تصنيف Oracle كواحدة من أفضل 35 شركة تلعب دورًا رئيسيًا في تطوير البرامج مفتوحة المصدر وصيانتها. من خلال شراء Sun Microsystems في 2010، ورثت Oracle بعض التقنيات مفتوحة المصدر الأكثر شعبية في العالم. كان دعمنا لتقنيات البيانات الكبيرة مفتوحة المصدر أحد دوافع النمو المهيمنة بالنسبة لنا في السنوات القليلة الماضية. تواصل Oracle دعم التطوير مفتوح المصدر والمؤسسات.

عندما يتعلق الأمر بالبيانات الكبيرة، كانت Oracle استباقية بشكل خاص في العمل مع البرامج مفتوحة المصدر. يصف القسم التالي كيفية استخدام Oracle للمصدر المفتوح في مجالات مختلفة من النظام الأساسي للبيانات الكبيرة لدينا. يتضمن العمل مع البيانات الكبيرة في Oracle ثلاث خطوات أساسية:

  • يدمج البيانات الكبيرة ويدمجها في نظامك
  • إدارة البيانات الكبيرة لديك ولديهم مكان لتخزينها
  • التحليل لفهم النماذج الاستباقية المستندة إلى التعلم الآلي وتمثيلها مرئيًا وفهمها وإنشائها باستخدام بياناتك

التكامل والبيانات الكبيرة

يطالب العديد من عملاء البيانات الكبيرة لدينا بعروض مفتوحة المصدر على وجه التحديد. تلتزم Oracle بتطوير المصدر المفتوح ودعمه وتعزيزه. تتضمن منتجات تكامل البيانات من Oracle، مثل Oracle Data Integration وOracle GoldenGate، تقنية مفتوحة المصدر، إلى جانب العديد من الأنظمة الأساسية الأخرى.

كما نلاحظ أن العديد من العملاء يريدون تحديث أطر عملهم مفتوحة المصدر والتقنيات الداعمة التي تتغير باستمرار. في جانب تكامل البيانات، ندعم حاليًا حوالي خمسة وعشرين تقنية مفتوحة المصدر ومصادر بيانات وأهداف وأطر تنفيذ مختلفة. تتضمن بعض التقنيات التي ندعمها ما يلي:

  • Apache Kafka
  • Apache Hive
  • Apache HBase
  • نظام Hadoop Cloud
  • Apache Cassandra

إن ما يراه العملاء في هذه الأيام هو مستوى نضج منتجات البيانات الكبيرة لديهم. ومن أهم العوامل التي يجب مراعاتها ما إذا كان البائع لديه استراتيجية دعم مقبولة حول أطر البيانات الكبيرة. من الضروري ألا يكون البائع عارضًا التزامه بالتقنية مفتوحة المصدر.

إلى جانب استحقاق المنتج، سيكون حل أعمال البيانات الكبيرة عادةً مزيجًا من المصدر المفتوح والمصدر غير المفتوح. لقد ظلت الشركات تحل مشكلات البيانات الكبيرة باستخدام حلول مفتوحة المصدر، ولكنها تتطلب قدرًا كبيرًا من الالتزام والتفاني والخبرة.

يمكنك وينبغي عليك الاستفادة من تقنية مفتوحة المصدر حيثما كانت منطقية. ولكن في كثير من الأحيان، ستحتاج إلى الشراكة مع مجموعة متنوعة من تقنيات البائعين الآخرين أيضًا.

على سبيل المثال، في الأيام الأولى لإنشاء بحيرات البيانات، أرادت الشركات الاستفادة من منتج مثل Kafka، مع قدرتها على نقل العديد من المدخلات والتوزيع على العديد من المخرجات. ولكن الحصول على Kafka بشكل أكثر موثوقية وقوة، كانت هناك حاجة إلى تقنية مثل Oracle GoldenGate. على الرغم من أن GoldenGate ليس مصدرًا مفتوحًا، إلا أن GoldenGate وKafka معًا تقدم خيارًا أفضل لاستيعاب بحيرة بيانات من استخدام منتج مثل Sqoop مع Kafka لأن GoldenGate منتجًا أكثر قوة ونضجًا من Sqoop.

إدارة البيانات الكبيرة

من منظور إدارة البيانات، تعتمد مجموعة منتجات البيانات الكبيرة من Oracle بشكل كبير على المصدر المفتوح.

اختارت Oracle هذا النهج للاستفادة من الابتكار مفتوح المصدر والتحكم بشكل أفضل في الوظائف المتاحة للعملاء. مع البيانات الكبيرة، هناك مكونات متعددة داخل المجموعة تتطور باستمرار. لهذا السبب اتخذنا قرارًا بتوزيع Hadoop مفتوح المصدر الخاص بنا.

كما نعتقد أيضًا أن استخدام البرامج مفتوحة المصدر يمكّن Oracle من تقديم دعم أفضل لعملائنا. وفي الوقت نفسه، نعلم أن النظم الإيكولوجية للبرمجيات الأخرى تقوم بتطوير مشاريع مصادر مفتوحة مثيرة للاهتمام تتطور. ولهذا السبب تواصل Oracle المساهمة في العديد من مجتمعات التطوير المختلفة. على سبيل المثال، تتطور جهود تطوير Oracle لاستخدام مخزن الكائنات كمخزن بيانات.

تساهم Oracle بنشاط في المجتمعات مفتوحة المصدر وتقدم للعملاء بعض عناوين IP الخاصة بنا للحصول على أداء وإمكانات أفضل.

لغة البرمجة R

في Oracle، لم نستخدم R فحسب، بل لقد قمنا بتحسينه بالفعل. تعد إعادة توزيع Oracle المدعومة لـ R مفتوح المصدر (وهو تنزيل مجاني) متوافقة مع التشغيل في قاعدة البيانات وHadoop، وهي الآن أسرع لأننا قمنا بتوازيها.

يمكن تشغيل R على عُقد متعددة وعلى مجموعة بدلاً من جهاز واحد، بحيث يمكن للعملاء تشغيل خوارزميات أكبر وأكثر تعقيدًا على مجموعات بيانات أكثر من دون الاعتماد على العينات. تتيح تحسينات Oracle لـ R للمستخدمين استخدام صياغة R وتوفير عمليات تنفيذ مختلفة تحتها مما يجعلها قابلة للتوسع وذات أداء.

بالإضافة إلى ذلك، أجرت Oracle التحسينات التالية على لغة R:

  • إنشاء خوارزميات للعمل في صياغة قاعدة البيانات وR
  • سكريبت Took R وجعله قابل للتنفيذ
  • تسهيل قيام المستخدمين بتشغيل R Script والاستفادة من SQL.

توسعت Oracle في مساحة Hadoop أيضًا، حيث قدمت واجهة R لـ Hive.

لا يتعلق التزام Oracle تجاه R وHadoop والمصدر المفتوح بالتقنية فحسب. عندما أنشأ مجتمع R اتحاد R في عام 2015، كانت Oracle عضوًا مؤسسًا. تم تأسيس اتحاد R لتوفير الفوائد والدعم لمجتمع R مفتوح المصدر. تواصل Oracle دعم نمو وتطوير R وشجعت اعتماد أفضل الممارسات لجودة حزمة R.

قاعدة بيانات مكانية ورسومية للبيانات الكبيرة

تدعم Oracle Spatial وOracle خدمات تحليلات الرسوم البيانية ونماذج البيانات أحمال عمل البيانات الكبيرة على تقنيات قواعد بيانات Apache Hadoop وNoSQL. يتضمن كل من مكتبات ومكونات مفتوحة المصدر لتقريب عروضنا. استخدمت Oracle العديد من هذه المكونات لأغراض البنية الأساسية، معظمها في المشروعات المستندة إلى Apache.

تعتبر Oracle العلاقة مفيدة بشكل متبادل. على سبيل المثال، تم تصميم تحليلاتنا على الجانب المكاني/الرسم البياني بشكل مخصص، ولكننا قمنا بتسريع هذه العملية لأننا استندنا إليها على مشروع مفتوح المصدر يسمى Green-marl وهي لغة خاصة بالمجال لتحليل بيانات الرسم البياني تمكننا من التعامل مع أسئلة التحليلات للعملاء بسرعة أكبر.

عندما تساهم Oracle في فتح المصدر، فإننا نستفيد عادةً من المصدر المفتوح وتخصيصه وتحسينه. فيما يلي أمثلة لمساهمات Oracle في المصدر المفتوح:

  • Cytoscape: تطور Oracle المكونات التي نقوم بشحنها (مثل ملحق لـ GDAL) بحيث يمكن للآخرين تحميل البيانات إلى قواعد البيانات المكانية الخاصة بهم.
  • جانب الرسم البياني للملكية: تجد Oracle فرصًا لتوسيع المنتجات أو المشروعات التي نعمل عليها، وتحديد الأخطاء ومشكلات الأمان، بالإضافة إلى تقديم ملاحظات للمطورين المناسبين. الميزة التي ساهمنا بها أكثر هي RDF W3C.
  • لقد قامت Oracle بدمج ذلك لاستيراد البيانات المكانية وتصديرها وتحويل تنسيقها. توفر Oracle برنامج تشغيل Oracle Spatial وOracle Graph.