مقايس المسافات التسعة الأهم في علوم البيانات سأحاول تقديم مزايا وعيوب أهم تسعة مقايس للمسافة مع تعريف بسيط عن عملها
تستفيد العديد من خوارزميات تعليم الآلة من مقاييس المسافة، سواء كان التعليم بمعلم أو بدون معلم. فمثلاً نرى دوراً مهماً لمقايس مثل المسافة الاقليدية، أو تشابه التجيب في خوارزميات مثل K-NN أو DBSCAN.
إن فهم مقاييس المسافة أكثر أهمية مما نعتقد، لنأخذ خوارزمية التعليم بدون معلم K-NN كمثال فهي تستخدم المسافة الاقليدية بين نقاط البيانات بشكل افتراضي وتلعب هذه المسافة دوراً كبيراً في نجاح عملها. لكن السؤال ماذا لو كانت البيانات متعددة الأبعاد فهل ستبقى المسافة الاقليدية صالحة للعمل في هذه البيئة؟ وماذا لو أن البيانات تتكون من معلومات جغرافية؟ عندها ستكون مسافة نصف القطر Haversine Distance والتي تستخدم لقياس المسافة بين نقطتين على سطح كروي، هي مقياس المسافة الأفضل.
تساعدك المعرفة بمقاييس المسافات وأين تستخدم كل واحد منها على الإنتقال من نموذج تصنيف ضعيف إلى نموذج أدق في مجال تعلم الآلة.
سنتناول في هذه المقالة عدة مقاييس للمسافة وسنناقش كيف ومتى نستخدمها بالشكل الأمثل، إضافة إلى الحديث عن بعض عيوب هذه المقاييس لنستطيع الابتعاد عنها حسب الحالة.
لا تعتبر هذه المقالة دليلاً شاملاً على كافة استخدمات مقاييس المسافات إنما هي نظرة عامة على تلك المقاييس
المسافة الاقليدية هي المقياس الأكثر شيوعاً، حيث يمكن تفسيره على أنه خط المسطرة الواصل بين نقطتين، ومعادلة حسابه واضحة إلى حد كبير حيث يتم حساب المسافة بين النقطتين على احداثيات ديكارت باستخدام نظرية فيثاغورث بعد اعتبار المسافة بين النقطتين على أنها وتر لمثلث قائم الزاوية
يتفرض مقايس المسافة الاقليدية أن كل المميزات (احداثيات نقطة البيانات) تتبع وحدة قياس واحدة وإلا فإن المسافة سوف تنحرف skwed بإتجاه وحدة قياس الميزة (الاحداثية) الأكبر، لذا يجب تحويل كافة المميزات إلى وحدة قياس موحدة Normalization حتى يعمل المقياس بشكل صحيح.
تشكل لعنة الأبعاد العيب الآخر لهذا المقياس، فكلما زادت أبعاد البيانات (عدد الميزات أو عدد احداثيات نقطة البيانات) قلت الفائدة من المسافة الإقليدية. يتعلق سبب ذلك بأن الفضاء ذي الأبعاد الكثيرة لا يعمل ولا يمكن تصوره بشكل حدسي كما الفضاء ثنائي أو ثلاثي الأبعاد.
تعمل المسافة الإقليدية بشكل جيد عندما تكون البيانات منخفضة أو قليلة الأبعاد، وعندما يكون طول المتجه مهماً في القياس، تعطي خوارزميات مثل K-NN و DBSCAN نتائج جيدة جداً إذا تم استخدام المسافة الإقليدية في وكانت البيانات منخفضة الأبعاد.
طورت العديد من مقاييس المسافات الأخرى لتتجنب عيوب المسافة الإقليدية إلا أنها لا تزال واحدة من أكثر مقاييس المسافة استخداماً لأسباب وجيهة، فاستخدامها سهل جداً، ونتائج تطبيقها ممتازة في العديد من الحالات.
يستخدم تشابه التجب غالباً كطريقة لتفادي مشكلة المسافة الإقليدية المتعلقة بالبيانات ذات الميزات الكثيرة (فضاء كثير الأبعاد)، وهو عبارة عن تجب الزاوية بين متجهين أو نتيجة الجداء الداخلي للمتجهين إذا كانا من فضاء واحد (أي أن مركبات المتجهات لها نفس وحدة القياس) أو قد تم تحويلهما إلى وحدة قياس موحدة Normalization.
إذا تطابق المتجهان على بعضهما في نفس الاتجاه فإن مقدار التشابه بينهم يكون 1، أما لو كان كل واحد منهم عكس الآخر فإن مقدار التشابه بينهما يكون -1، لاحظ أن طويلة كل متجه لاتمثل شيء في مقياس التشابه هذا فالقياس هنا لجهة المتجه وليس لمقداره أو طويلته.
يعد عدم اخذ طويلة المتجه بعين الاعتبار في حساب التشابه بين المتجهين احد اهم عيوب تشابه التجب، هذا يعني أن اختلاف القيم لايؤخذ بعين الاعتبار بشكل كامل، ففي نظام التوصية مثلاً لن يأخذ تشابه التجب الاختلاف في عدد مرات التصويت للمستخدمين بعين الاعتبار.
نستخدم مقياس تشابه التجب عندما يكون لدينا بيانات علية الأبعاد (كثيرة الميزات) وعندما لا تكون طويلة المتجهات مهمة. يستخدم هذا المقياس كثيراً في تحليل النصوص عندما يتم تمثيل البيانات بعدد الكلمات، فمثلاً عندما تتكرر كلمة ما في وثيقة أكثر من تكررها في وثيقة اخرى فهذا لا يعني بالضرورة أن الوثيقة الأولى أكثر ارتباطاً بهذه الكلمة، فقد يكون طول الوثيقتين غير متساويتين وعندها يكون العدد أقل أهمية (طويلة المتجه)، ولذلك يستخدم تشابه التجب الذي يتجاهل العدد.
هي عدد القيم المختلفة بين مركبات متجهين، تستخدم عادة لمقارنة سلسلتين ثنائيتين ومتساويتين بالطول. تستخدم أيضاً مع السلاسل النصية لمقارنة مدى التشابه بينهما عن طريق حساب عدد الأحرف التي تختلف عن بعضها البعض.
يصعب استخدام مسافة هامينغ عندما لا يكون المتجهان متساويان في الطول، كما هو متوقع. فالهدف هو مقارنة متجهات بطول واحد مع بعضهما البعض لفهم المواقع التي لا تتطابق فيها الحروف. لا تأخذ مسافة هامينغ طويلة المتجه بعين الاعتبار كما هو الحال مع تشابه التجب، لذلك لا ينصح باستخدامها عندما تكون طويلة المتجه مهمة وذات معنى.
تستخدم تقليدياً في حالات اكتشاف وتصحيح اخطاء البيانات عند ارسالها عبر الشبكات، وتستخدم أيضاً لتحديد عدد البتات المشوهة وفي الكلمات الثنائية كوسيلة لتقدير الخطأ. تستخدم أيضاً في تعليم الآلة كوسيلة لقياس المسافة بين المتغيرات أو الميزات الفئوية Categorical Variables.
مسافة مانهاتن أو المسافة التي يقطعها التكسي، أو مسافة المدينة، تحسب المسافة بين قيم المتجهات الحقيقية. تخيل شبكة ذات خطوط موحدة مثل رقعة الشطرنج عليها متجهين. فالمسافة بين هذين المتجهين تحسب فقط بالحركة على زوايا قائمة والحركة القطرية على خطوط الشبكة غير متاحة.
تعمل مسافة مانهاتن بشكل جيد على البيانات عالية الأبعاد، إلا أنها أقل حدسية من المسافة الإقليدية، خاصة عندما تكون البيانات ذات ميزات كثيرة. تعطي مسافة مانهاتن قيمة أعلى من المسافة الإقليدية لأنها ليست أقصر مسار ممكن. قد لا يكون ذلك مشكلة بالضرورة لكنه شيء يجب أخذه بعين الاعتبار
تعمل مسافة مانهاتن جيداً على البيانات المتقطعة أو الثنائية لأنها تأخذ بعين الاعتبار المسارات التي يمكن أن تسلك بشكل واقعي ضمن قيم تلك البيانات. ستنشئ المسافة الاقليدية خط مستقيماً بين المتجهين بينما في الواقع قد لا يكون هذا ممكناً.
هي الفرق الأكبر بين احداثيات متجهين على أي من مركباتهما، بمعنى آخر هي المسافة القصوى على طول محور واحد. يشار إليها عادة باسم مسافة رقعة الشطرنج لأن الحد الأدنى لعدد الحركات التي يحتاجها الملك للإنتقال من مربع إلى آخر يساوي مسافة تشابيشيف.
تستخدم مسافة تشابيشيف في حالات محددة للغاية وليست كغيرها من المسافات متعددة الأستخدامات، لذلك يقترح استخدامها فقط عندما تكون متأكد من أنها تناسب حالتك بالضبط
تستخدم في الألعاب التي تسمح بالحركة في 8 اتجاهات بحرية على ارض اللعبة، عملياً تستخدم مسافة تشابيشيف في لوجستيات المستودعات لأنها تشبه إلى حد كبير حركة الرافعات العلوية لتحريك الأشياء من مكان إلى آخر.
هي المقياس الأكثر تعقيداً في هذه القائمة، تستخدم في فضاء المتجهي المعياري (الفضاء الحقيقي ب n بعد) أي أننا نستطيع استخدامه في فضاء حيث تمثل المسافات بمتجه ذو طويلة. لهذه المسافة شروط ثلاث:
- **المتجه الصفري: ** هو متجه ذو طويلة صفرية بينما يكون لأي متجه أخر طويلة موجبة. مثال إذا تحركنا من مكان إلى آخر فستكون المسافة موجبة دائماً، لكن التحرك من المكان إلى نفسه ستكون المسافة صفرية دائماً.
- **المعامل العددي: ** عندما نضرب المتجه بعدد موجب، فإن الطويلة ستتغير مع محافظة المتجة على اتجاهه. مثال مضاعفة المسافة التي تحركناها لأن تغير في الاتجاه شيء.
- **عدم المساوة المثلثية: ** المسافة الأقصر بين نقطتين هي الخط المستقيم الواصل بينهما
إنتبه إلى المعامل p في هذه المعادلة حيث يمكننا استخدامه لتغير المقياس بشكل كامل، لاحظ القيم التالية وأثرها بشكل عام عندما تكون p=1 تتحول المعادلة إلى مسافة مانهاتن عندما تكون p=2 تتحول المعادلة إلى المسافة الإقليدية عندما تكون P=∞ تتحول المعادلة إلى مسافة تشابيشيف
لدى مسافة مينكوفسكي نفس عيوب مقاييس المسافة التي تمثلها، لذا فإن الفهم الجيد للمقاييس مثل مسافة مانهاتن، والمسافة الإقليدية، ومسافة تشابيشيف مهم للغاية، العيب الآخر يكمن في تحديد قيمة المعامل p حيث أن العثور على قيمة صحيحة له قد يكون غير فعال من الناحية الحسابية في بعض حالات الاستخدام.
هناك ميزة باستخدام المعامل p وهي تجريب قيم مختلفة لها حتى تصل إلى مقياس يناسب الحالة التي تعمل عليها. يتيح ذلك مرونة كبيرة في تحديد مقياس المسافة المناسب، فإذا كانت ملماً بقيم p ومقايس المسافة المرتبطة بها فستحصل على فوائد كبيرة.
أو التقاطع على الاجتماع هو مقياس يستخدم لحساب التشابه والتنوع في مجموعات العينات. يحسب نتيجة قسمة تقاطع المجموعات على اجتماعها.