معالجة القيم الشاذة
هناك من لا يضع للقيم الشاذة أو Outliers أي اعتبار عند عمله في تحليل البيانات، وقد يكون سمع بهذا المصطلح وهو يقرأ هذه الأسطر. القيم الشاذة لها تأثير كبير على الكثير من المؤشرات الإحصائية، وأساليب التعامل معها ومعالجتها تتعلق بعوامل كثيرة منها ما هو بسيط ومنها ما يكون أكثر تعقيدا يتعلق بنوع المؤشر الإحصائي، إذ يجب على محلل البيانات معرفة تصنيف المعامل الإحصائي Smooth Prameter أم لا، وهذا ما يعبر عن درجة تأثره بالقيم الشاذة.
مثلاً المتوسط الحسابي يعتبر من أفضل مؤشرات/معاملات النزعة المركزية إلا أنه يتأثر بالقيم الشاذة بدرجة كبيرة جداً مقارنة بالوسيط، علماً أن الوسيط لا يعتبر معاملاً دقيقاً مقارنة بالمتوسط الحسابي.
سأحاول في هذه الأسطر الحديث عن جانب هام وهو الأكثر بساطة وهو أساليب معالجة القيم الشاذة.
أساليب معالجة القيم الشاذة:
1. مراجعة المصدر: للتحقق من القيمة فإن كان هناك خطأ في الإدخال يتم تصحيحه، كأن يكتب العمر لدراسة للأطفال 22 خطأ بدل 2، بذلك نكتشف ببساطة أنه خطأ في الإدخال ونصححه.
2. المعالجة المنطقية للقيم الشاذة: يمكن اكتشاف أخطاء القيم الشاذة من خلال المعالجة المنطقية، ببساطة عند دراسة للقوى العاملة فإن من يكون عمره 7 سنين مثلا سيتم حذف بياناته لأنه لا يصنف من القوى العاملة.
3. التمييز بين ما نبقيه وما نحذفه: تعتبر هذه العملية مرهقة جداً، إذ لا توجد معايير دقيقة لأجل قبول أو رفض القيم الشاذة، وفي هذا الجانب يقدم برنامج SPSS ميزة جميلة، هي تصنيف القيم الشاذة إلى نوعين، قيم شاذة Outliers (التي توجد بين الربيع الأول/الثالث وواحد ونصف المدى البيعي) وقيم متطرفة Extreme values (التي تبعد ما بين واحد ونصف إلى ثلاثة مرات المدى الربيعي)، أي باختصار بيانات بعيدة عن مكان تمركز البيانات وبيانات بعيدة جداً عنه، في هذه الحالة يمكن اعتماد هذا التصنيف بقبول القيم الشاذة وحذف القيم المتطرفة.
4. استبدال القيم الشاذة التي تم حذفها: الخطوة الأخيرة والأكثر حساسية هي قرار التعامل مع ما تم حذفه من قيم شاذة، هل نقوم بإبقائها محذوفة أم نستبدلها، يبدأ التحدي من قرار الاستبدال، إذ أن تركها فارغة يترتب عليه تبعات وتحديات ومقابله فإن استبدالها يترتب عليه أيضاً تبعات وتحديات. يتبع اتخاذ قرار الاستبدال هو المنهجية المناسبة للاستبدال، فعملية استبدال القيم المفقودة معقدة أيضاً فلها منهجيات وخيارات مختلفة، كل من هذه المنهجيات سيكون له تأثير بطريقة ما على نتائج تحليل البيانات (سأتحدث عن استبدال القيم المفقودة في منشور آخر إن شاء الله).
ليس من البساطة اجمال منهجيات التعامل مع القيم الشاذة بهذه الأسطر القليلة، فحذف القيم الشاذة يضعنا في خيارات أخرى، هل نترك مكانها كقيمة مفقودة أم نستبدلها بقيم بديلة، كما أننا عندما نحذف القيم الشاذة ونعيد استكشاف البيانات نجد أن هناك قيم شاذة جديدة قد ظهرت، كانت هذه القيم لا تعتبر شاذة باعتبار قاعدة البيانات قبل تعديلها (أي قبل حذف القيم الشاذة في المرحلة الأولى)، لذلك أنصح بالتبحر بهذا المجال، مع مراعاة كم الإغراق بالتبحر بناء على حجم البيانات ودرجة حساسيتها.
بواسطة:
غيث البحر: الرئيس التنفيذي لشركة إنديكيتورز
هناك من لا يضع للقيم الشاذة أو Outliers أي اعتبار عند عمله في تحليل البيانات، وقد يكون سمع بهذا المصطلح وهو يقرأ هذه الأسطر. القيم الشاذة لها تأثير كبير على الكثير من المؤشرات الإحصائية، وأساليب التعامل معها ومعالجتها تتعلق بعوامل كثيرة منها ما هو بسيط ومنها ما يكون أكثر تعقيدا يتعلق بنوع المؤشر الإحصائي، إذ يجب على محلل البيانات معرفة تصنيف المعامل الإحصائي Smooth Prameter أم لا، وهذا ما يعبر عن درجة تأثره بالقيم الشاذة.
مثلاً المتوسط الحسابي يعتبر من أفضل مؤشرات/معاملات النزعة المركزية إلا أنه يتأثر بالقيم الشاذة بدرجة كبيرة جداً مقارنة بالوسيط، علماً أن الوسيط لا يعتبر معاملاً دقيقاً مقارنة بالمتوسط الحسابي.
سأحاول في هذه الأسطر الحديث عن جانب هام وهو الأكثر بساطة وهو أساليب معالجة القيم الشاذة.
أساليب معالجة القيم الشاذة:
1. مراجعة المصدر: للتحقق من القيمة فإن كان هناك خطأ في الإدخال يتم تصحيحه، كأن يكتب العمر لدراسة للأطفال 22 خطأ بدل 2، بذلك نكتشف ببساطة أنه خطأ في الإدخال ونصححه.
2. المعالجة المنطقية للقيم الشاذة: يمكن اكتشاف أخطاء القيم الشاذة من خلال المعالجة المنطقية، ببساطة عند دراسة للقوى العاملة فإن من يكون عمره 7 سنين مثلا سيتم حذف بياناته لأنه لا يصنف من القوى العاملة.
3. التمييز بين ما نبقيه وما نحذفه: تعتبر هذه العملية مرهقة جداً، إذ لا توجد معايير دقيقة لأجل قبول أو رفض القيم الشاذة، وفي هذا الجانب يقدم برنامج SPSS ميزة جميلة، هي تصنيف القيم الشاذة إلى نوعين، قيم شاذة Outliers (التي توجد بين الربيع الأول/الثالث وواحد ونصف المدى البيعي) وقيم متطرفة Extreme values (التي تبعد ما بين واحد ونصف إلى ثلاثة مرات المدى الربيعي)، أي باختصار بيانات بعيدة عن مكان تمركز البيانات وبيانات بعيدة جداً عنه، في هذه الحالة يمكن اعتماد هذا التصنيف بقبول القيم الشاذة وحذف القيم المتطرفة.
4. استبدال القيم الشاذة التي تم حذفها: الخطوة الأخيرة والأكثر حساسية هي قرار التعامل مع ما تم حذفه من قيم شاذة، هل نقوم بإبقائها محذوفة أم نستبدلها، يبدأ التحدي من قرار الاستبدال، إذ أن تركها فارغة يترتب عليه تبعات وتحديات ومقابله فإن استبدالها يترتب عليه أيضاً تبعات وتحديات. يتبع اتخاذ قرار الاستبدال هو المنهجية المناسبة للاستبدال، فعملية استبدال القيم المفقودة معقدة أيضاً فلها منهجيات وخيارات مختلفة، كل من هذه المنهجيات سيكون له تأثير بطريقة ما على نتائج تحليل البيانات (سأتحدث عن استبدال القيم المفقودة في منشور آخر إن شاء الله).
ليس من البساطة اجمال منهجيات التعامل مع القيم الشاذة بهذه الأسطر القليلة، فحذف القيم الشاذة يضعنا في خيارات أخرى، هل نترك مكانها كقيمة مفقودة أم نستبدلها بقيم بديلة، كما أننا عندما نحذف القيم الشاذة ونعيد استكشاف البيانات نجد أن هناك قيم شاذة جديدة قد ظهرت، كانت هذه القيم لا تعتبر شاذة باعتبار قاعدة البيانات قبل تعديلها (أي قبل حذف القيم الشاذة في المرحلة الأولى)، لذلك أنصح بالتبحر بهذا المجال، مع مراعاة كم الإغراق بالتبحر بناء على حجم البيانات ودرجة حساسيتها.
غيث البحر
المراجعات
لا توجد مراجعات بعد.