إشكالات التعامل مع القيم المفقودة
العديد من برامج تحليل البيانات لا تمتلك قدرة التمييز بين عدة قيم هي:
– القيم المفقودة
– الفراغ
– القيمة صفر
هذا الإشكال في ضعف البرامج ينسحب أيضا على عدم تمييز الكثير من العاملين في تحليل البيانات بين هذه القيم، فلا يتم التمييز بينها والتعامل معها وتحليل البيانات بناء على هذه الاختلافات.
قد يظن البعض بأن هذه الفوارق ليست بتلك الأهمية ويتجاهلونها ويتركون التعامل معها لبرامج تحليل البيانات، إلا أن الأمر في أغلب الحالات يعطي نتائج كارثية لا يفطن لها الكثيرين.
سأحاول إيضاح تلك الفوارق من خلال بعض الأمثلة:
1. في حال أردنا تحليل متوسط الدخل للمواطنين في بلد يعاني من أزمة، لوحظ أن نسبة عالية من المجيبين قالوا بأنهم لا يمتلكون دخلا من أي نوع، وكانت نسبة هؤلاء تتجاوز الـ 40% من العوائل المدروسة، تعامل محللو البيانات مع هذه الحالات على أنها قيم مفقودة، مما أدى إلى نتائج بعيدة تماماً عن واقع المجتمع، إذ أن مؤشرات الوضع الاقتصادي في هذه الحالة ستقول مثلا بأن 10% فقط من العوائل تحت خط الفقر المدقع، أما الحقيقة فإن النسبة كانت تتجاوز الـ 50%، لأن من لا يمتلك أي دخل يجب أن يحتسب على أن دخله صفرا وليس قيمة مفقودة، لأن القيمة المفقودة لا تدخل في الحسابات أما القيمة صفر فتحتسب، وتؤثر بذلك على النسب المؤوية والمتوسط العام للدخل. في الحالة المعاكسة في حال السؤال عن الراتب الشهري، فإن من لا يمتلك عملاً سيعتبر راتبه الشهري قيمة مفقودة وليس صفراً، فهو لا يعمل أبداً والراتب لا يحتسب صفراً.
2. الفراغ في الأسئلة النصية لا تعتبره الكثير من البرامج قيمة مفقودة، فمثلاً نجد أن برنامج SPSS لا يعتبر الخلية الفارغة في الأسئلة النصية قيمة مفقودة، وإنما يعتبرها قيمة حقيقية في كل حساباته، ففي عمود الجنس (النوع) إذا كان نصياً سيحتسب البرنامج القيم الفارغة مما سيؤثر بشكل كبير على النتائج مثل النسب المئوية والأعداد، مع العلم أن من لم يشر إلى جنسه (ذكر أو أنثى) يجب أن يعتبر قيمة مفقودة.
3. في برنامج SPSS عند محاولة حساب عمود بيانات جديد من أعمدة أخرى نجد أن بعض الأكواد (المعادلات) تستطيع التعامل مع القيم المفقودة بشكل فعال وبعضها لا، مثلاً عند محاولة حساب مجموع أفراد العائلة من أفراد العائلة من كل فئة، واستخدمنا المعادلة sum نلاحظ أن البرنامج يعطي نتيجة المجموع حتى لو كانت هناك قيمة مفقودة في أحد الفئات، أما الحساب كجمع يدوي سيعطي نتيجة المجموع كقيمة مفقودة عند مصادفة أي من الحالات فيها قيمة مفقودة.
لا يمكن حصر الحالات التي توجد فيها إشكالات تعريف القيم المفقودة، ولا أنصح في حال من الأحوال بترك حرية التخمين والتعامل مع تلك القيم لبرنامج تحليل البيانات ولا حتى لمسؤول تحليل البيانات لوحده، إذ يجب تحديد ما هو التعامل والتعريف المناسب للقيمة الفارغة، فكما وضحنا في حالة الدخل يجب أن تحتسب القيمة المفقودة صفراً وفي حالة الراتب يجب أن تعتبر قيمة مفقودة، وفي مثالنا الثالث يجب اعتبار القيمة الفارغة من أي فئة من أفراد العائلة صفراً، مع العلم أنه يتوجب من البداية تنبيه جامعي البيانات بأن الأسرة التي لا تمتلك أي فرد من فئة ما يجب ألا تترك قيمة مفقودة وأن يملأها بالقيمة صفر.
بواسطة:
غيث البحر: الرئيس التنفيذي لشركة إنديكيتورز
إشكالات التعامل مع القيم المفقودة
العديد من برامج تحليل البيانات لا تمتلك قدرة التمييز بين عدة قيم هي:
– القيم المفقودة
– الفراغ
– القيمة صفر
هذا الإشكال في ضعف البرامج ينسحب أيضا على عدم تمييز الكثير من العاملين في تحليل البيانات بين هذه القيم، فلا يتم التمييز بينها والتعامل معها وتحليل البيانات بناء على هذه الاختلافات.
قد يظن البعض بأن هذه الفوارق ليست بتلك الأهمية ويتجاهلونها ويتركون التعامل معها لبرامج تحليل البيانات، إلا أن الأمر في أغلب الحالات يعطي نتائج كارثية لا يفطن لها الكثيرين.
سأحاول إيضاح تلك الفوارق من خلال بعض الأمثلة:
1. في حال أردنا تحليل متوسط الدخل للمواطنين في بلد يعاني من أزمة، لوحظ أن نسبة عالية من المجيبين قالوا بأنهم لا يمتلكون دخلا من أي نوع، وكانت نسبة هؤلاء تتجاوز الـ 40% من العوائل المدروسة، تعامل محللو البيانات مع هذه الحالات على أنها قيم مفقودة، مما أدى إلى نتائج بعيدة تماماً عن واقع المجتمع، إذ أن مؤشرات الوضع الاقتصادي في هذه الحالة ستقول مثلا بأن 10% فقط من العوائل تحت خط الفقر المدقع، أما الحقيقة فإن النسبة كانت تتجاوز الـ 50%، لأن من لا يمتلك أي دخل يجب أن يحتسب على أن دخله صفرا وليس قيمة مفقودة، لأن القيمة المفقودة لا تدخل في الحسابات أما القيمة صفر فتحتسب، وتؤثر بذلك على النسب المؤوية والمتوسط العام للدخل. في الحالة المعاكسة في حال السؤال عن الراتب الشهري، فإن من لا يمتلك عملاً سيعتبر راتبه الشهري قيمة مفقودة وليس صفراً، فهو لا يعمل أبداً والراتب لا يحتسب صفراً.
2. الفراغ في الأسئلة النصية لا تعتبره الكثير من البرامج قيمة مفقودة، فمثلاً نجد أن برنامج SPSS لا يعتبر الخلية الفارغة في الأسئلة النصية قيمة مفقودة، وإنما يعتبرها قيمة حقيقية في كل حساباته، ففي عمود الجنس (النوع) إذا كان نصياً سيحتسب البرنامج القيم الفارغة مما سيؤثر بشكل كبير على النتائج مثل النسب المئوية والأعداد، مع العلم أن من لم يشر إلى جنسه (ذكر أو أنثى) يجب أن يعتبر قيمة مفقودة.
3. في برنامج SPSS عند محاولة حساب عمود بيانات جديد من أعمدة أخرى نجد أن بعض الأكواد (المعادلات) تستطيع التعامل مع القيم المفقودة بشكل فعال وبعضها لا، مثلاً عند محاولة حساب مجموع أفراد العائلة من أفراد العائلة من كل فئة، واستخدمنا المعادلة sum نلاحظ أن البرنامج يعطي نتيجة المجموع حتى لو كانت هناك قيمة مفقودة في أحد الفئات، أما الحساب كجمع يدوي سيعطي نتيجة المجموع كقيمة مفقودة عند مصادفة أي من الحالات فيها قيمة مفقودة.
لا يمكن حصر الحالات التي توجد فيها إشكالات تعريف القيم المفقودة، ولا أنصح في حال من الأحوال بترك حرية التخمين والتعامل مع تلك القيم لبرنامج تحليل البيانات ولا حتى لمسؤول تحليل البيانات لوحده، إذ يجب تحديد ما هو التعامل والتعريف المناسب للقيمة الفارغة، فكما وضحنا في حالة الدخل يجب أن تحتسب القيمة المفقودة صفراً وفي حالة الراتب يجب أن تعتبر قيمة مفقودة، وفي مثالنا الثالث يجب اعتبار القيمة الفارغة من أي فئة من أفراد العائلة صفراً، مع العلم أنه يتوجب من البداية تنبيه جامعي البيانات بأن الأسرة التي لا تمتلك أي فرد من فئة ما يجب ألا تترك قيمة مفقودة وأن يملأها بالقيمة صفر.
بواسطة:
غيث البحر: الرئيس التنفيذي لشركة إنديكيتورز
المراجعات
لا توجد مراجعات بعد.