5 أشياء يجب أن تعرفها عن البيانات الضخمة

5 أشياء يجب أن تعرفها عن البيانات الضخمة

تعد البيانات الضخمة موضوعًا ساخنًا للغاية ، ومع ظهور Splunk IPO الأسبوع الماضي ارتفاعًا على غرار عام 1999 ، فإن العربة تفيض. نحن على استعداد لرؤية العديد من الشركات تتجه نحو مساحة البيانات الضخمة أو ببساطة تلصق ملصق البيانات الضخمة على منتجاتها – سواء كانت دقيقة أم لا – لمجرد ركوب الموجة.

يهدف هذا المنشور إلى مساعدتك في تثقيفك ببعض مفاهيم البيانات الضخمة بحجم البايت (وليس فقط التوافه) حتى تتمكن من تمييز المادة عن الضجيج.

مفاهيم حول البيانات الضخمة

1. البيانات الضخمة هي البيانات الموزعة

البيانات الضخمة مصطلح غامض له العديد من التعريفات المختلفة. الشيء الأساسي الذي يجب تذكره هو أنه في هذا اليوم وهذا العصر ، يتم توزيع البيانات الضخمة . هذا يعني أن البيانات ضخمة جدًا بحيث لا يمكن تخزينها أو معالجتها بواسطة عقدة واحدة.

لقد ولت أيام شراء خادم حديدي كبير واحد من IBM أو Sun للتعامل مع جميع احتياجات ذكاء الأعمال الخاصة بك. لقد أثبتت جوجل و أمازون و فيسبوك وغيرها أن طريقة التوسع السريع وبتكلفة معقولة هي استخدام الأجهزة السلعية لتوزيع تخزين ومعالجة تدفقات البيانات الضخمة الخاصة بنا عبر عدة عقد ، وإضافة العقد وإزالتها حسب الحاجة.

2. ستسمع الكلمات “Hadoop” و “MapReduce”

ما هو Hadoop؟ إنها منصة مفتوحة المصدر لتوحيد ودمج وفهم البيانات واسعة النطاق من أجل اتخاذ قرارات عمل أفضل. Hadoop هي التكنولوجيا التي تدعم العديد (ولكن ليس كل) البنى التحتية لتحليلات البيانات الضخمة.

هناك جزئين رئيسيين لبرنامج Hadoop:

  • HDFS (نظام الملفات الموزعة Hadoop) الذي يتيح لك تخزين البيانات عبر عقد متعددة.
  • MapReduce الذي يتيح لك معالجة البيانات بالتوازي عبر عقد متعددة.

على الرغم من أن Hadoop هو أحد الحلول الأكثر شيوعًا لتحليل البيانات الضخمة – إلا أن هناك الكثير من الحلول الأخرى. لا يمكن دمج البيانات الضخمة في نكهة واحدة للتكنولوجيا. السمة المهمة هي أنك قادر على استخلاص رؤى من كميات كبيرة من البيانات ، بغض النظر عن تقنيات معينة.

3. يعمل توليد البيانات الموزعة على تغذية نمو البيانات الضخمة

السبب في وجود مشاكل بيانات كبيرة لدرجة أننا نحتاج إلى بنية حوسبة موزعة على نطاق واسع لحلها هو أن إنشاء البيانات يتم أيضًا على نطاق واسع وتوزيعه. يتجول معظمنا حاملاً أجهزة تنبض باستمرار بجميع أنواع البيانات في السحابة وما وراءها – مواقعنا وصورنا وتغريداتنا وتحديثات الحالة واتصالاتنا وحتى نبضات قلوبنا .

لكل جزء من البيانات التي تم إنشاؤها بواسطة الإنسان ، من المحتمل وجود بيانات تم إنشاؤها بواسطة الجهاز. ثم هناك البيانات الوصفية. البيانات وفيرة وقيمة للغاية.

4. تعلم الآلة… رائع!

أحد العوامل الرئيسية في تحليلات البيانات الضخمة هي خوارزميات التعلم الآلي المستخدمة للإجابة على أسئلة مثيرة للاهتمام واستخلاص قيمة من الأصفار والآحاد التي نقوم بمضغها بشدة ثم نبصقها مرة أخرى.

بعض الأمثلة الرائعة:

  • Nest – منظم حرارة جميل يتعلم مدى سخونة أو برودة منزلك حتى لا تضطر أبدًا إلى تعديله مرة أخرى (ليس البيانات الضخمة من الناحية الفنية ، ولكن المرح مع ذلك)
  • مرشح البريد الإلكتروني العشوائي Bayesian من Gmail – لا مزيد من رسائل البريد الإلكتروني المغرية من ذلك الأمير النيجيري المزعج!
  • توصيات منتج أمازون – بالتأكيد ، سآخذ كتاب JavaScript ، وزوج من Asics ، والموسم الأول من صراع العروش Game of Thrones.  كيف يعرفونني جيدًا ؟!
  • توصيات التحكم في الوصول الخاصة بـ فارونيس- قم بتقليل الوصول بناءً على تحليلات دقيقة للغاية.

اترك تعليقاً