اخترنا لك التكنولوجيا عند الحدود المتقدمة

السؤال الأول الذي يجب طرحُه عند تقييم أدوات الذكاء الاصطناعي

تحديد ما إذا كان حلٌّ من حلول الذكاء الاصطناعي يستحق التنفيذ يتطلب النظر في تقارير الأداء السابقة، وتحديد الحقيقة الأساسية التي دُرِّب الذكاء الاصطناعي عليها والتحقق من صحتها.

أغسطس 1, 2023

في قطاع الذكاء الاصطناعي السريع الحركة والشديد التنافسية جداً، نجد أن مزاعم المطورين حول قدرة أدوات الذكاء الاصطناعي AI الخاصة بهم على تقديم توقعات حاسمة Critical predictions بدرجة عالية من الدقة هي العامل الرئيس للترويج لقيمتها لدى العملاء المحتملين. نظراً إلى أن الأشخاص الذين ليسوا خبراء في الذكاء الاصطناعي قد يجدون صعوبة في تقييم هذه الأدوات، وقد يميل القادة إلى الاعتماد على مقاييس الأداء عالية المستوى Highlevel performance metrics المنشورة في المواد الخاصة بالمبيعات. لكن الاضطلاع بذلك يؤدي في الأغلب إلى تطبيقات مخيبة للآمال أو حتى محفوفة بالمخاطر.

على مدار تحقيق استمر 11 شهراً، رصدنا مديرين في مؤسسة رائدة للرعاية الصحية في أثناء اضطلاعهم بإجراء دراسات تجريبية داخلية لخمس أدوات للذكاء الاصطناعي. كانوا موعودين بنتائج أداء مثيرة للإعجاب لكل منها، لكن عديداً من الأدوات أدت أداء سيئاً جداً في تجاربها. وبتحليل عملية التقييم وجدنا أن الطريقة الفاعلة لتحديد جودة أداة الذكاء الاصطناعي هي فهم حقيقتها الأساسية Ground truth وفحصها.¹S. Lebovitz, N. Levina, and H. Lifshitz-Assaf, “Is AI Ground Truth Really True? The Dangers of Training and Evaluating AI Tools Based on Experts’ Know-What,” MIS Quarterly 45, no. 3 (September 2021): 1501-1526. وسنشرح ما هو هذا، وكيف يمكن للمديرين التعمق فيه، للتوصل إلى تقييم أفضل لما إذا كانت أداةٌ معينة من أدوات الذكاء الاصطناعي قد تعزز عملية اتخاذ القرار في مؤسستهم أو تقلل منها.

ما الحقيقة الأساسية لأداة الذكاء الاصطناعي؟
تُمكَّن جودة أداة الذكاء الاصطناعي – والقيمة التي يمكن أن تقدمها إلى مؤسستكم – من خلال جودة الحقيقة الأساسية المستخدمة لتدريبها والتحقق من صحتها. بوجه عام، تُعرَّف الحقيقة الأساسية على أنها معلومات معروفة بأنها صحيحة استناداً إلى أدلة موضوعية وتجريبية. في الذكاء الاصطناعي، تشير الحقيقة الأساسية إلى البيانات الموجودة في مجموعات بيانات التدريب التي تعلم الخوارزمية Algorithm كيفية الوصول إلى ناتج متوقع؛ تُعتبَر الحقيقة الأساسية هي الإجابة ”الصحيحة“ لمشكلة التوقع التي تتعلم الأداة حلها. ثم تصبح مجموعة البيانات هذه المعيار الذي يقيس به المطورون دقة توقعات النظام. مثلاً يتطلب تعليم نمذجة Model لتحديد أفضل المرشحين للوظائف مجموعاتِ بيانات تدريبية Training data sets تصف سمات المرشحين، مثل التعليم وسنوات الخبرة، إذ يُربَط كل منها بتصنيف: ”المرشح الجيد“ (صحيح) أو ”المرشح غير الجيد“ (خاطئ). في حين يتطلب تدريب النمذجة للإبلاغ عن محتوى غير لائق مثل التنمر أو خطاب الكراهية مجموعات بيانات كاملة من النصوص والصور المصنفة: ”مناسبة“ (صحيحة) أو ”غير مناسبة“ (خاطئة). والهدف من ذلك هو أنه بمجرد تطوير النمذجة، تكون قد تعلمت نمط السمات التي تتوقع الناتج الصحيح لنقطة بيانات جديدة.

في السنوات الأخيرة برز وعي متزايد بمخاطر استخدام سمات من مجموعات بيانات التدريب التي لا تمثل الجميع أو التي تحتوي على تحيز Bias.²C. DeBrusk, “The Risk of Machine-Learning Bias (and How to Prevent It),” MIT Sloan Management Review, March 26, 2018, https://sloanreview.mit.edu. ومن المدهش أن هناك القليل من النقاش حول جودة Quality التصنيفات Labels التي تعمل كحقيقة أساسية لتطوير النمذجة. من الأهمية بمكان أن يسأل المديرون: ”هل الحقيقة الأساسية حقيقية بالفعل؟“.

تتمثل الخطوة الأولى في الوضوح حول الحقيقة الأساسية لأداة ما في التحقيق في المقياس الذي تستخدمه عادة شركات الذكاء الاصطناعي لدعم مزاعم الأداء، والمعروفة باسم AUC (اختصاراً: المنطقة تحت منحنى خاصية التشغيل المتلقي Area under the receiver operating characteristic curve). يلخص المقياس AUC دقة النمذجة في تقديم التوقعات على مقياس من 0 إلى 1، حيث الرقم 1 يمثل دقة مثالية.³“Classification: ROC Curve and AUC,” Machine Learning Crash Course, Google, last modified July 18, 2022, https://developers .google.com. وفي الأغلب يركز المديرون على هذا المقياس كدليل على جودة الذكاء الاصطناعي – ويأخذون في الاعتبار مقارنته مع نتائج المقياس AUC المطبقة لتقييم مهمة التوقع نفسها التي يضطلع بها البشر.

يُحتسَب المقياس AUC بمقارنة نواتج الذكاء الاصطناعي بفئات الحقيقة الأساسية التي استخدمها مصممو الذكاء الاصطناعي. ويُعتبَر ناتج الذكاء الاصطناعي صحيحاً إذا تطابق مع تصنيف الحقيقة الأساسية، وغير صحيح إذا لم يكن كذلك. ويعتمد مدى فائدة المقياس AUC وأهميته على جودة تصنيفات الحقيقة الأساسية، التي لا يمكن الافتراض ببساطة أنها مصادر عالية الجودة للحقيقة.

وهنا تكمن المشكلة الأساسية: بالنسبة إلى عديد من القرارات الحاسمة في المؤسسات، نادراً ما تكون هناك ”حقيقة“ موضوعية جاهزة تُغذَّى في الخوارزمية. بدلاً من ذلك يبني مصممو الذكاء الاصطناعي بيانات الحقيقة الأساسية، ولديهم مجال كبير من حيث كيفية تحقيق ذلك. مثلاً، في السياق الطبي، يلجأ مطورو الذكاء الاصطناعي إلى مقايضات Trade-offs كبيرة عند اختيار الحقيقة الأساسية التي ستُستخدَم لتدريب نمذجة تشخيص السرطان والتحقق من صحته. يمكنهم استخدام نتائج الخزعات Biopsy لتكون بمنزلة الحقيقة الأساسية، والتي من شأنها أن توفر نتيجة متحقَّقاً من صحتها من قِبل أطراف خارجية لمعرفة ما إذا كان السرطان قد اكتُشِف. ومع ذلك لا يخضع معظم المرضى أبداً لاختبارات الخزعة (لحسن الحظ)، ويتطلب الحصول على هذه النتائج لجميع المرضى في مجموعة بيانات التدريب استثمارات ضخمة وتعاون المرضى وموافقتهم على إجراء الخزعات.

بدلاً من ذلك قد يستخدم المطورون التشخيصَ المسجَّل من قِبل الطبيب الإكلينيكي الذي يشرف على مريض معين في ذلك الوقت. من السهل نسبياً الحصول على هذه البيانات من السجلات الصحية الإلكترونية التاريخية. يمكن للمطورين أيضاً تعيين طبيب خبير، أو لجنة من الخبراء، لإنتاج تشخيص لعيِّنةٍ من الحالات في مجموعة بيانات التدريب، ومن ثم يستخدمون متوسط Average آرائهم أو أغلبيتها Majority كتصنيف للحقيقة الأساسية. قد يكون إنشاء هذا النوع من مجموعة البيانات مكلفاً ويستغرق وقتاً طويلاً، لكن ذلك ما يجري عادة في مجتمع الذكاء الاصطناعي الطبي. لكن، يوازن مطورو الذكاء الاصطناعي بين التكاليف والفوائد النسبية عند تحديد كيفية تعيين تصنيفات الحقيقة الأساسية – وهو قرار له تأثير كبير في الجودة العامة والقيمة المحتملة للأداة.

لتحديد الحقيقة الأساسية لأداة للذكاء الاصطناعي، ما عليكم سوى سؤال البائع أو المطورين. تحققوا من إجاباتهم عن طريق البحث عن ”الحقيقة الأساسية“ أو ”التصنيف“ في تقارير الأبحاث التقنية وملخصات المنهجية. بالنسبة إلى الأدوات الطبية الخاضعة لموافقة الجهات التنظيمية، تكون هذه المعلومات متاحة للجمهور في موقع إدارة الغذاء والدواء الأمريكية U.S. Food and Drug Administration. نوصي بالتفاعل العميق مع مزوِّدي خدمات الذكاء الاصطناعي وفرق التطوير الداخلي، وإجراء محادثات صريحة حول اختياراتهم للحقيقة الأساسية، ومنطقهم وراء هذه الاختيارات، وأي مقايضات نظروا فيها. وينبغي تفسير التحفظ في مناقشة هذه المواضيع بشفافية على أنه علامة تحذيرية جدية.

البحث

شرعت مُؤلِّفات الورقة البحثية في استكشاف كيفية تأثُّر العمل المهني بالتكنولوجيات المتقدمة.

أجرينَ دراسةً ميدانية نوعية متعمقة داخل مؤسسة الرعاية الصحية التي تعمل بنشاط على تطوير الذكاء الاصطناعي وتبنيه واستخدامه لمهام اتخاذ القرار المهمة.

شمل جمع البيانات 11 شهراً من المراقبة داخل المستشفى، وأكثر من 40 مقابلة طويلة، وتحليلاً لوثائق أرشيفية.

ما مدى موضوعية الحقيقة الأساسية أو قابليتها للتحقق من قِبل أطراف خارجية؟
في بعض السياقات، ما يُعتبَر حقيقة حول نتيجة قرار معين قد يكون واضحاً ومتفقاً عليه على نطاق واسع. إذا كان الأمر كذلك، فقد تكون الحقيقة الأساسية للذكاء الاصطناعي مستقاة من مجموعات بيانات أكثر موضوعية. مثلاً لتوقُّع تأثير العواصف الاستوائية، قد يعتمد مصممو الذكاء الاصطناعي على حجم مطالبات التأمين والدعوم الحكومية لتكون بمنزلة الحقيقة الأساسية لوصف حدث يخص الطقس بأنه مدمر جداً أو لا.

ومع ذلك تركز عديد من حلول الذكاء الاصطناعي في السوق على سياقات القرارات الأكثر ذاتية، إذ يختلف الخبراء في الأغلب حول ما إذا كان القرار ”صحيحاً“ (في مجالات مثل العدالة الجنائية، والموارد البشرية، والقبول في الجامعات، والاستثمار الاستراتيجي، وما إلى ذلك). وفي عديد من سياقات التشخيص الطبي، لا توجد في كثير من الأحيان وسيلة موضوعية للتحقق من صحة قرار معين على أنه دقيق أو لا. بدلاً من هذا المصدر الموضوعي، يستخدم مصممو الذكاء الاصطناعي في الأغلب آراء الأطباء التشخيصية لتمثيل الحقيقة في بياناتهم المخصصة لتدريب الذكاء الاصطناعي. يفعلون ذلك على الرغم من أن الأبحاث الطبية المنشورة تظهر تبايناً كبيراً وذاتية في صفوف حتى أكثر الخبراء المخضرمين والمؤهلين، لاسيما عندما يتعلق الأمر بتشخيص الأمراض التي يصعب تمييزها.

إن التحقق من صحة قرارات الخبراء أمر صعب جداً، وفي بعض الحالات مستحيل. مثلاً إذا لم يعد المريض إلى عيادة التشخيص، فقد يستنتج المرء أن تشخيص الطبيب كان دقيقاً وأن العلاج كان فاعلاً، حتى لو ساءت حالة المريض، وقرر طلب المساعدة في مكان آخر.

تباين وذاتية كهذين هما بالضبط ما يؤجج الاستثمار في أدوات الذكاء الاصطناعي التي يمكن أن تعالج سياقات القرارات الشائكة هذه. ومع ذلك لكونها ذاتية يصعب العثور على حقيقة أساسية عالية الجودة. ونظراً إلى أن سياقات القرار هذه تسود أيضاً في مسائل حساسة تنطوي على مخاطر عالية وذات تأثيرات أخلاقية، من المهم بنحو خاص التحقيق في الحقيقة الأساسية، والنظر في أفضل الممارسات التي يستخدمها الخبراء البشريون الذين يتخذون قرارات مماثلة من دون مساعدة من الذكاء الاصطناعي. ما مدى الذاتية أو التباين الذي ينطوي عليه اتخاذ هذا القرار؟ كيف يجري التحقق من صحة القرارات؟ أي ما الطرق الراسخة والمقبولة لقياس جودة قرارات الخبراء في هذا السياق بالذات؟

في عديد من المهن هناك معايير مقبولة للقرارات عالية الجودة – أي إن ما يتفق عليه الخبراء هو أفضل طريقة لتقييم حكم معين، فيما يتعلق بالقيود والحدود الراهنة. وتختلف هذه المعايير اختلافاً كبيراً في السياقات والمؤسسات ومجالات الخبرة. يجب على المديرين الذين يقيمون الأدوات لغرض قرارات معينة أن يسألوا الخبراء البشريين الذين يتخذون القرارات نفسها: ما المعايير الحالية وأفضل الممارسات Best practices لتقييم جودة القرار لهذا المجال المحدد.

توضح الأمثلة من دراستنا تنوعَ هذه المعايير، حتى في المجال العام لتشخيص السرطان. لتشخيص سرطان الثدي، يجري التحقق من صحة أحكام أطباء الأشعة مقارنةً بنتائج الباثولوجي من دراسات الخزعة. في حالة ترسيم حدود أورام المخ، لا توجد طريقة واحدة يتفق عليها الخبراء كمعيار واضح لتقييم الأحكام. إذا تجاوزنا السياق الطبي إلى مجال إدارة الموارد البشرية، فهل يكون المرشح الناجح لوظيفة الشخص الذي يجتاز المقابلات كلها – هذه هي حالياً الحقيقة الأساسية الشائعة لأدوات الذكاء الاصطناعي في هذا المجال – أو الشخص الذي يحصل على وظيفة ويُظهر أداء وظيفياً متفوقاً على مدار سنوات عديدة لاحقة؟

كيف تُقارَن الحقيقة الأساسية للذكاء الاصطناعي بالمعيار المثالي للقرارات الحاسمة للخبراء؟
بمجرد أن يتضح المعيار المثالي أو الذهبي لتقييم القرارات الحاسمة للخبراء، حان الوقت لمقارنته بأساليب مطوري الذكاء الاصطناعي لتحديد الحقيقة الأساسية المستخدمة لتدريب الخوارزمية والتحقق من صحتها. توضح الحالة التالية من دراستنا أهمية هذه الخطوة التي تبلغ ذروتها.

كان مديرون في مجال الرعاية الصحية يخططون لإجراء دراسة تجريبية لأداة للذكاء الاصطناعي لتشخيص سرطان الثدي. في سياق مناقشة ما يجب استخدامه كحقيقة أساسية للتحقق من أداء الأداة في بياناتهم الداخلية، نظروا إلى ما استخدمه مطورو الذكاء الاصطناعي لاختبارات الأداء الأولية. وصدمهم ما اكتشفوه.

صُمِّمت أداة الذكاء الاصطناعي لتوقع ”من المحتمل سرطان“ Likely cancer أو ”من المحتمل ورم حميد“ Likely benign على أساس مدخلات Input من أشعة الثدي. في سياق القرار هذا سيشمل المعيار الذهبي للتحقق من صحة هذا التشخيص نتائج الباثولوجي النهائية والنتائج الصحية للمرضى على المدى الطويل (البيانات التي يصعب الحصول عليها والمكلفة). بدلاً من ذلك اختار مصممو الذكاء الاصطناعي بناء تصنيفات الحقيقة الأساسية للتحقق من صحة الأداة بناءً على أحكام لجنة من أطباء الأشعة بعد دراسة صورة أشعة واحدة (المدخل نفسه في حالة نمذجة الذكاء الاصطناعي). وعندما أجروا اختبارات أداء الإنسان في مقابل الذكاء الاصطناعي على النمذجة، زعموا أنها كانت مقارنة بين متشابهين، إذ اتخذ فريق الخبراء الذي استعانوا به القرارَ نفسه الذي اتخذته نمذجة الذكاء الاصطناعي على أساس أشعة الثدي. كانت نتائج الاختبار مذهلة وتصدرت العناوين الرئيسة: تفوقت أداة الذكاء الاصطناعي على كل خبير في الدراسة.

ومع ذلك، عند التعمق في تقرير الأداء هذا، يكتشف المديرون في دراستنا أن الحقيقة الأساسية المستخدَمة كانت غير كافية بقدر كبير مقارنةً بالمعيار المقبول في المجال المهني. ولَّد هذا الخلل مفاهيم خاطئة خطيرة حول القيمة المحتملة للأداة.

وأدرك المديرون أن التحقق من صحة قرارات التشخيص على أساس صورة أشعة ثدي واحدة سيكون أمراً سخيفاً – وخطيراً. إذا كانت الخزعة غير متوافرة أو غير سليمة، ينطوي المعيار المهني المقبول لمراجعة حالة كهذه على تحليل أكثر شمولاً. تتضمَّن هذه الممارسة ملاحظة التغييرات في مواعيد المتابعة المتعددة، ومراجعة عديد من الصور (مثل صور التصوير المقطعي الثلاثي الأبعاد 3D tomosynthesis images وصور السونار Ultrasounds) ومقارنتها، وإجراء الفحوص الجسدية، وتقييم عوامل الخطر Risk factors لدى الفرد (مثل العمر والتاريخ العائلي والتاريخ الجراحي)، وحتى طلب تصوير مستهدف إضافي. بعد اكتشاف التباين الشاسع بين معاييرهم وتلك المستخدمة لإثبات الحقيقة الأساسية لأداة الذكاء الاصطناعي، قرر المديرون في دراستنا العمل مع علماء بيانات داخليين لتصميم أداة جديدة باستخدام تصنيفات أفضل للحقيقة الأساسية.

ومن المرجح جداً أن يُصادف المديرون مزودي ذكاء اصطناعي يستخدمون مصادر أقل من مثالية للحقيقة الأساسية، بالنظر إلى التكاليف والجدوى من الحصول على بيانات الحقيقة الأساسية العالية الجودة، وربما لرغبتهم في إظهار أداء الأداة في أفضل شكل. لهذا السبب من الأهمية بمكان البحث عن الأدوات التي دُرِّبَت على بيانات الحقيقة الأساسية، والقريبة من المعيار المثالي لجودة اتخاذ القرار في هذا المجال المعرفي Knowledge domain. يجب أن تشمل بيانات الحقيقة الأساسية هذه الدراية الفنية للخبراء (عمليات المعرفة التداولية Deliberative knowledge processes في العالم الفعلي)، وليس فقط ”معرفتهم“ (القرارات المسجلة في تصنيفات مجموعة البيانات).

إذا بُنِيت الحقيقة الأساسية بطريقة تُشبه إلى حد كبير المعيار الذهبي للخبراء، فهذا هو الضوء الأخضر للانتقال إلى مزيد من التقييم، مثل تقييم الملاءمة مع البنية التحتية التقنية وإجراء دراسات تجريبية داخلية. لكن إذا كانت الحقيقة الأساسية للذكاء الاصطناعي أقل جودة، نوصي بالحذر. إذا كان من الممكن التأثير في عملية التطوير، فادفعوا باتجاه إعادة تصميم أداة الذكاء الاصطناعي باستخدام بيانات للحقيقة الأساسية عالية الجودة. وإلا فسيشكل تبني أدوات الذكاء الاصطناعي مع عدم كفاية الحقيقة الأساسية مخاطر كبيرة: ستُقلَّل جودة القرار لتتناسب مع الجودة المنخفضة التي تمليها بيانات الحقيقة الأساسية. وإضافةً إلى ذلك، مع تبني المؤسسات ومجتمعنا لهذه الأدوات على نطاق واسع، سيُعَاق التعلُّم المهني إلى حد كبير، فتضيع المعرفة القيمة للخبراء وتُستبدَل بها نمذجة الذكاء الاصطناعي ونواتجه. قد نقبل هذا الخطر إذا كنا نعتقد أن الذكاء الاصطناعي يتعلم من الحقيقة الأساسية العالية الجودة ويضطلع بذلك بنحو أسرع وأفضل من البشر، لكن ليس إذا كان الأمر خلاف ذلك.

تجاهُل بيانات الحقيقة الأساسية الهشة للذكاء الاصطناعي في اتخاذ قرارات حاسمة يمكن أن تكون له عواقب وخيمة ودائمة.

منتجات الذكاء الاصطناعي المُتاحة في السوق مُعدَّة للإبهار، وقد يميل المديرون إلى تصديق وعود مزودي هذه المنتجات وادعاءاتهم من دون تمحيص، نظراً إلى التحديات التي تواجه تقييم هذه الأدوات. لكن تجاهل بيانات الحقيقة الأساسية الهشة للذكاء الاصطناعي في اتخاذ قرارات حاسمة يمكن أن تكون له عواقب وخيمة ودائمة. نقترح أن يتعمق المديرون في تقارير أداء الذكاء الاصطناعي لتحديد الحقيقة الأساسية التي بُنِيت عليها هذه الأنظمة وتقييمها. عندها فقط يمكنهم تقييم فاعلية ما إذا كانت أداة الذكاء الاصطناعي ستقدم قيمة حقيقية إلى مؤسساتهم. ويمكن للاضطلاع بذلك أن يحقق فوائد أخرى أيضاً: وجدنا أن المديرين الذين دأبوا على تقييم الذكاء الاصطناعي في الأغلب أعادوا تقييم عمليات اتخاذ القرارات الخاصة بخبرائهم البشريين ووجدوا طرقاً لتحسينها.

وأخيراً يجب على واضعي السياسات والباحثين أيضاً أن يضعوا في اعتبارهم أن قرارات اختيار ”الحقيقة الأساسية“ التي يتخذها مصممو الذكاء الاصطناعي لها تأثير بعيد المدى، ليس فقط في المؤسسات التي تختبر أدوات الذكاء الاصطناعي وتتبناها، لكن أيضاً في المسائل المجتمعية المهمة التي ستكون لها آثار دائمة. وهم أيضاً في حاجة إلى النظر في الحقيقة الأساسية كجزء من النقاش حول تبني الذكاء الاصطناعي.

سارة ليبوفيتز Sarah Lebovitz

أستاذة مساعدة في كلية ماكينتير للتجارة McIntire School of Commerce بجامعة فرجينيا University of Virginia.

هيلا ليفشيتز-أساف

أستاذة في جامعة وارويك Warwick University وعضو هيئة التدريس في مختبر علوم الابتكار Lab for Innovation Science بجامعة هارفارد Harvard University.

ناتاليا ليـفـيـنا Natalia Levina

أستاذة في مدرسة ستيرن للأعمال Stern School of Business بجامعة نيويورك New York University.

المراجع[+]

المراجع
↑1	S. Lebovitz, N. Levina, and H. Lifshitz-Assaf, “Is AI Ground Truth Really True? The Dangers of Training and Evaluating AI Tools Based on Experts’ Know-What,” MIS Quarterly 45, no. 3 (September 2021): 1501-1526.
↑2	C. DeBrusk, “The Risk of Machine-Learning Bias (and How to Prevent It),” MIT Sloan Management Review, March 26, 2018, https://sloanreview.mit.edu.
↑3	“Classification: ROC Curve and AUC,” Machine Learning Crash Course, Google, last modified July 18, 2022, https://developers .google.com.

أغسطس 1, 2023

اظهر المزيد