القيود العملية للنماذج اللغوية الكبيرة

المبالغة في تقدير قدرات نماذج الذكاء الاصطناعي مثل Chat GPT يمكن أن تؤدي إلى تطبيقات غير موثوق بها.

أبريل 18, 2024

ميخائيل بورتسيف – مارتن ريفز – آدم جوب

يبدو أن النماذج اللغوية الكبيرة Large language models (اختصاراً: النماذج LLMs) مهيأة لتحويل الأعمال. فقد أثارت قدرتها على توليد إجابات تفصيلية ومبتكرة عن الاستفسارات بلغة ورمز واضحين موجةً من الإثارة بعد إطلاقه للمرة الأولى والتي أدت إلى وصول ChatGPT إلى 100 مليون مستخدم أسرع من أي تكنولوجيا أخرى. بعد ذلك ضخ المستثمرون أكثر من 40 بليون دولار في الشركات الناشئة Start up في مجال الذكاء الاصطناعي Artificial Intelligence في النصف الأول من العام 2023 – أكثر من 20% من استثمارات رأس المال الاستثماري Venture capital العالمية كلها – وتُطور الشركات، بدءاً من الشركات الناشئة في مرحلة التأسيس إلى عمالقة التكنولوجيا، تطبيقات جديدة للتكنولوجيا.

لكن في حين أن النماذج اللغوية الكبيرة LLMs قوية بقدر لا يُصدَّق، يمكن أن تدعونا قدرتُها على إنشاء نص يشبه النص الإنساني إلى نسَب الفضل بنحو خاطئ إليها على صعيد قدرات بشرية أخرى، ما يؤدي إلى سوء تطبيق التكنولوجيا. من خلال فهم أعمق لكيفية عمل النماذج اللغوية الكبيرة LLMs وقيودها الأساسية، يمكن للمديرين اتخاذ قرارات أكثر استنارة حول كيفية استخدام النماذج اللغوية الكبيرة LLMs في مؤسساتهم، ومعالجة أوجه القصور فيها بمزيج من التكنولوجيات التكميلية Complementary technologies والحوكمة البشرية Human governance.

ميكانيكا النماذج اللغوية الكبيرة
النموذج اللغوي الكبير LLM هو في الأساس نموذج لتعلم الآلة Machine learning مصمم لتوقع العنصر التالي في سلسلة من الكلمات. في وقت سابق كانت نماذج اللغة الأكثر بدائية تعمل بالتتابع، مستمدة من التوزيع الاحتمالي للكلمات داخل بيانات التدريب الخاصة بها لتوقع الكلمة التالية في تسلسل. (فكروا في لوحة مفاتيح هاتفكم الذكي التي تقترح الكلمة التالية في رسالة نصية). ومع ذلك تفتقر هذه النماذج إلى القدرة على النظر في السياق الأكبر الذي تظهر فيه الكلمة ومعانيها وارتباطاتها المتعددة.

كان ظهور أحدث بنية للشبكات العصبية Neural network architecture – المحولات Transformers – بمنزلة تطور كبير نحو النماذج اللغوية الكبيرة LLMs الحديثة. تسمح المحولات للشبكات العصبية بمعالجة أجزاء كبيرة من النص في وقت واحد من أجل إقامة علاقات أقوى بين الكلمات والسياق الذي تظهر فيه. وأدى تدريب هذه المحولات على كميات هائلة بقدر متزايد من النص إلى قفزة في التطور تمكن النماذج اللغوية الكبيرة LLMs من توليد استجابات للطلبات Prompts شبيهة بالاستجابات البشرية.

تتوقف قدرة النماذج اللغوية الكبيرة LLMs هذه على عدة عوامل حاسمة، بما في ذلك حجم النموذج، الذي يُرمَز إليه بعدد الأوزان القابلة للتدريب (المعروفة باسم المعاملات Parameters)، وجودة بيانات التدريب وحجمها (المحددة بعدد الرموز المميزة Tokens، في إشارة إلى وحدات الكلمات أو الكلمات الفرعية)، والحد الأقصى لحجم المدخلات التي يمكن للنموذج قبولها كموجه (المعروف باسم حجم نافذة السياق Context window size). يحتوي كل مُعامل في النموذج على بعض المعلومات حول العلاقة المستنبطة من بيانات التدريب، لذلك يميل النموذج الذي يحتوي على عدد أكبر من المعاملات إلى أن يكون أكثر دراية ودقة. (مثلاً يحتوي GPT-3 الخاص من Open AI على 175 بليون معامل). يؤثر حجم بيانات التدريب أيضاً بقدر كبير في قدرة النموذج على التعميم، إذ تقدم مجموعات البيانات الأكبر تمثيلات أكثر تنوعاً للعلاقات والحقائق الدلالية. (دُرِّب GPT-3 على ما يقرب من نصف تريليون رمز). يؤدي حجم الطلب المُدخل الذي يمكن للنموذج قبوله أيضاً دوراً في دقته. (يحتوي GPT-3 على نافذة سياق تضم 2,000 رمز مميز). وكلما كان السياق أكثر تفصيلاً، كان توقع النموذج أكثر دقة.

استجابةً للطلب المُدخل يعتمد النموذج اللغوي الكبير على العلاقات التي أنشأها تدريبه لتوليد استمرار للنص، رمزاً مميزاً إثر آخر. تستلزم كل خطوة توقُّع احتمالات الرمز المميز التالي بناء على السياق المقدَّم، وتختار الخوارزمية الرمز المميز بناء على هذه الاحتمالات. وتُعدَّل درجة العشوائية في هذا الاختيار من خلال إعداد درجة حرارة Temperature النموذج. تنتج درجات الحرارة المرتفعة اختيارات أكثر ”إبداعاً“ أو غير محتملة، في حين تنتج درجات الحرارة المنخفضة استجابات أكثر قابلية للتوقع. لتحسين دقة استجابات النموذج اللغوي الكبير للطلبات، والحد من قدرتها على إنتاج استجابات غير مناسبة أو غير ذات صلة أو سامة، يمكن ضبط النماذج المدربة مسبقاً من خلال تقنيات مثل التعلم المعزز بالملاحظات البشرية Reinforcement learning from human feedback، أو RLHF، المستخدم لضبط نماذج مثل Chat GPT.

أربعة قيود مهمة على النماذج اللغوية الكبيرة
بناء على هذا الفهم لكيفية عمل النماذج اللغوية الكبيرة LLMs، يمكننا فحص الانطباعات الخاطئة التي قد تُنشئها في أثناء تطبيق حدسنا البشري على المخرج الذي يبدو بشرياً.

1. حدود الاستدلال
الطلب المُدخل Prompt: وفق تقرير اتحاد مزارعي الملفوف للعام 2007، كان 80% من الملفوف الذي جُمِع ثقيلاً (أكثر من 0.5 كغم)، و10% من الملفوف أخضر، و60% أحمر، و50% كبيراً (يبلغ قطره أكثر من 10 سم). أي العبارات الآتية يجب أن تكون خاطئة؟

1. الملفوف الأحمر كله لم يكن كبيراً.

2. %30 من الملفوف الأحمر كان كبيراً.

3. لم يكن هناك ملفوف أخضر وكبير.

4. نصف الملفوف كان صغيراً.

استجابة النموذج اللغوي الكبير: العبارة التي يجب أن تكون خاطئة هي 4. نصف الملفوف كان صغيراً.

الإجابة الصحيحة هي أن العبارة 1 خاطئة – على الأقل يجب أن يكون بعض الملفوف الأحمر كبيراً.

على عكس الانطباع الذي قد يتولد، لم تُبنَ النماذج اللغوية الكبيرة LLMs للتفكير المعقد. مثلاً، وجدت الدراسات أن GPT-4، النموذج اللغوي الكبير الأكثر تقدماً في Open AI، يمكنه التحقق بنحو صحيح من رقم بوصفه أولياً في 2.4% فقط من الحالات، مع وجود نقاط ضعف مماثلة في توقع الأنماط المرئية. وأظهرت أبحاث أخرى أن النماذج اللغوية الكبيرة LLMs تفشل في فهم العلاقات بين الكلمات في مجموعة بيانات التدريب: مثلاً، يمكن لـ GPT-4 الإجابة بنحو صحيح على السؤال: ”مَن والدة توم كروز Tom Cruise؟“ (ماري لي فايفر Mary Lee Pfeifer)، لكن لا يمكن استنتاج الإجابة عن ”مَن ابن ماري لي فايفر؟“ – مع إجابة النموذج بنحو صحيح عن أسئلة مثل السؤال السابق خلال 79% من الوقت، مقارنة بـ33% للسؤال الأخير.

بنحو أساسي تتعلم النماذج اللغوية الكبيرة LLMs فقط المحاكاة اللفظية Verbal simulation القواعد المنطقية الأولية، لكنها لا تمتلك المهارات اللازمة لربطها معاً لإنتاج استنتاجات معقدة والتحقق منها. إضافةً إلى ذلك فإن النماذج اللغوية الكبيرة LLMs عرضة لتراكم الأخطاء في التفكير المنطقي المتعدد الخطوات، لأن الطبيعة الاحتمالية الأساسية للنموذج تعني أن كل خطوة لها فرصة غير صفرية للخطأ. أخيراً لا يمكن للنماذج اللغوية الكبيرة LLMs دائماً تحديد ”سلسلة التفكير“ التي أدت إلى استنتاج، ما يجعل من الصعب على البشر تحديد ما إذا كان الخطأ قد حدث أو مكانه.

سلطت تجربة ميدانية أجريت أخيراً مع أكثر من 750 مستشاراً من مجموعة بوسطن الاستشارية Boston Consulting Group الضوءَ على الآثار الواقعية لهذا القيد. المشاركون الذين يستخدمون GPT-4 عند محاولة حل مشكلة عمل بسيطة حصلوا على إجابة خاطئة بنسبة 23% أكثر من المجموعة الضابطة Control group التي لم يكن لديها حق الوصول إلى النموذج اللغوي الكبير – لأن GPT-4 لم يصدر في كثير من الأحيان إجابة خاطئة فحسب، بل قدَّم أساساً منطقياً مقنعاً لحلها الذي قبِله المستخدمون من دون تردد.

2. حدود المعرفة أو الخبرة
طلبنا إلى نموذج لغوي كبير تزويدَنا بخمس أوراق منشورة في مجلات أكاديمية مُحكَّمة بمراجعة الأقران Peer reviewed حول جدوى الاندماج النووي Nuclear fusion، مع عناوين الأوراق، وأعوام النشر، وأسماء المؤلفين الرئيسين. أعاد النموذج اللغوي الكبير خمس نتائج، منها مقالتان إخباريتان، لا ورقتان راجعهما أقران، وورقة غير موجودة.

تملي معرفة النموذج اللغوي الكبير بيانات التدريب الخاصة به. إذا كانت البيانات تفتقر إلى معرفة مجالات محددة، أو لديها حالات غير كافية لمفهوم معين، أو لم تكن محدثة، قد يفشل النموذج اللغوي الكبير في إظهار المعرفة ذات الصلة استجابة لطلب مُدخل. وبالمثل قد تعيد النماذج اللغوية الكبيرة LLMs إنتاج الأخطاء الموجودة في بيانات التدريب. أخيراً يمكن للنماذج أن تنشئ أخطاء عن طريق ”الهلوسة“ بعبارات لم تكن موجودة في بيانات التدريب. وَجد باحثون كَلفوا Chat GPT بوضع خطط علاجية لمجموعة متنوعة من حالات السرطان أن ثلث استجابات النموذج اللغوي الكبير تحتوي على معلومات غير صحيحة – في الأغلب تكون مختلطة مع مؤشرات صحيحة، ويُعبَّر عنها بنحو معقول بطريقة تجعل من الصعب على الشخص العادي تحديد ما هو دقيق. في مثال آخر بارز، غُرِّم محاميان وشركتهما بعد تقديم استشهادات مزيفة أُنشِئَت بواسطة Chat GPT في ملف المحكمة: كان النموذج اللغوي الكبير قد هلوس بست قضايا قانونية، بما في ذلك آراء واقتباسات قضائية.

أخيراً يمكن أن تؤدي قيود المعرفة أيضاً إلى عدم الاتساق، إذ تستجيب النماذج اللغوية الكبيرة LLMs للطلب المُدخل نفسه المطروح في نقاط زمنية مختلفة بطرق متناقضة. مثلاً استخدم مدرسون في ولاية أيوا Chat GPT لتحديد مدى ملاءمة الكتب لمكتبة مدرستهم للامتثال لقانون الولاية الجديد. وزودوا النموذج اللغوي الكبير بقائمة بكتب المكتبة كلها وطلبوا إليه الإشارة إلى تلك التي تحتوي على مضمون ينتهك القانون، ما أدى إلى إزالة 19 عنواناً من المكتبة. ومع ذلك، عندما سأل الصحافيون لاحقاً Chat GPT حول تلك العناوين الـ19، اقترح أن أربعة منها فقط تحتوي على محتوى لا يتفق مع القانون.

3. حدود الفهم
الطلب المُدخل: هناك تفاحة داخل صندوق أزرق. يوجد أيضاً صندوق أحمر داخل الصندوق الأزرق. الصندوق الأحمر له غطاء. كيف يمكنني الحصول على التفاحة؟

استجابة النموذج اللغوي الكبير: لاسترداد التفاحة من الصندوقين، يمكنك اتباع الخطوات التالية:

1. افتحوا غطاء الصندوق الأحمر: نظراً إلى أن الصندوق الأحمر موجود داخل الصندوق الأزرق وله غطاء عليه، فأنتم في حاجة إلى فتح غطاء الصندوق الأحمر أولاً.

2. أزيلوا الصندوق الأحمر من الصندوق الأزرق: بمجرد فتح غطاء الصندوق الأحمر، يمكنكم إخراج الصندوق الأحمر بالكامل من الصندوق الأزرق.

3. افتحوا الصندوق الأحمر: بعد إزالة الصندوق الأحمر من الصندوق الأزرق، يمكنكم فتح الصندوق الأحمر للوصول إلى محتوياته.

4. استرجعوا التفاحة: أخيراً يمكنك الوصول إلى داخل الصندوق الأحمر وإخراج التفاحة.

فشل Chat GPT في فهم أن التفاحة ليست داخل الصندوق الأحمر.

قد لا ”يفهم“ النموذج اللغوي الكبير الطلب المُدخل المقدم. وبسبب افتقاره إلى السياق الكافي، قد يتعثر، وقد تصبح نواتجه مفككة أو غير متماسكة. حلل باحثون ردود Chat GPT على أكثر من 500 سؤال مقدم من الإنسان في منتدى هندسة البرمجيات عبر الإنترنت ستاك أوفرفلو Stack Overflow. ووجدوا أن 52% من إجابات النموذج كانت غير دقيقة، مع أكثر من نصف هذه الأخطاء الناتجة عن عدم فهم Chat GPT للمفهوم أو تفاصيل السؤال، أو التركيز على الجزء الخطأ من المشكلة. وهذا يعني أن النموذج اللغوي الكبير قد لا يكون مفيداً بنحو هامشي عندما يفتقر المستخدمون إلى المعرفة الكافية بالمشكلة لتغذيته بطلب مُدخل جيد.

قدرة النماذج اللغوية الكبيرة LLMs الخارقة على توليد مخرجات نصية شبيهة بتلك البشرية يمكن أن تقودنا بسهولة إلى أن ننسب إليها قدرات لا تمتلكها.

4. حدود التخطيط والتنفيذ
يمكن للنماذج اللغوية الكبيرة LLMs تقديم إرشادات واضحة خطوة بخطوة لمهمة مطلوبة، ما ينشئ انطباعاً بأن النموذج يمكنه تخطيط حلول عملية. لكن بالنظر إلى قدرة النماذج اللغوية الكبيرة LLMs المحدودة على التفكير والفهم المحدود للمهام، يمكن أن تكون الإجراءات المقترحة غير عملية أو ساذجة. مثلاً، عندما طُلِب إلى Chat GPT وضعَ خطة للادخار بغرض تملُّك منزل، قدم بعض النصائح المالية القوية بوجه عام، لكنه لم يأخذ في الاعتبار التغيرات المحتملة في الدخل أو التحولات في معدلات الفائدة. إضافةً إلى ذلك هو لا يأخذ في الاعتبار الخطأ البشري: هو لا يشكك في واقعية الأهداف ولا اعتقاد المستخدم بأنه على دراية بعادات الإنفاق الدقيقة.

بالنسبة إلى الشركات، هذه القيود كلها يمكن أن تقوض الموثوقية. لا يمكن للمرء أن يكون متأكداً من أن المعلومات المقدمة من النموذج اللغوي الكبير كاملة أو ذات صلة أو مجدية أو صحيحة. بالنظر إلى هذه القيود لا يمكن بالتأكيد الاعتماد على النماذج اللغوية الكبيرة LLMs لاتخاذ قرارات حاسمة أو تنفيذ خطط بنحو مستقل. ومع ذلك قد لا يزال تفويض المهام العادية يبدو جذاباً – مثلاً تلك التي تنطوي على تفاعلات برمجية مع خدمات تكنولوجيا المعلومات الحالية، مثل تصفح الإنترنت واستخراج المعلومات منها، أو مراقبة وسائل التواصل الاجتماعي والمراسلة. وفي الواقع، سمح Auto-GPT – وهو تطبيق مفتوح المصدر مدعوم من GPT-4 يربط مخرجات النموذج اللغوي الكبير معاً لتنفيذ الأهداف التي يحددها المستخدم بنمط مستقل – للمتحمسين بإنشاء عدد من عروض الأتمتة المثيرة للإعجاب، بما في ذلك إجراء الأبحاث على المنتجات، وترميز صفحات الإنترنت أو التطبيقات، وحتى طلب البيتزا. ومع ذلك اقترح الباحث في الذكاء الاصطناعي جيم فان Jim Fan أن العروض التوضيحية ”منتقاة بشدة“ – إذ تشير الأبحاث التي أُجرِيت على برامج وكيلة مستقلة Autonomous agents إلى أنها، في البيئات الواقعية، تحقق معدلات نجاح تبلغ نحو 10% فقط.

التغلب على القيود
بدلاً من مجرد تقييد تطبيقات النماذج اللغوية الكبيرة LLMs على الحالات الروتينية التي لا تنطبق فيها قيودها أو لا تكون الأخطاء حاسمة (مثل توليد أفكار منتجات جديدة لمزيد من الدراسة)، يجب على الشركات تصميم تطبيقاتها كلها مع وضع القيود في الاعتبار – من خلال استكمالها بالإشراف البشري والتكنولوجيات الأخرى.

يُعَد الإبقاء على دور البشر أمراً بالغ الأهمية إذ تدمج الشركات النماذج اللغوية الكبيرة LLMs في عملياتها. وينبغي أن يشمل ذلك التحقق من صحة نواتج الذكاء الاصطناعي من أجل تعزيز الثقة الموضوعة في التكنولوجيا. ويمكن أيضاً توسيع نطاقه ليشمل ترجمة خبراء مشكلات الأعمال إلى حوافز للذكاء الاصطناعي، وضمان أن تكون المعلومات التي يوفرها النموذج كافية من خلال تكييف السياق والفروق الدقيقة التي تغذي به بنحو مناسب.

إضافة إلى التفكير في كيفية صياغة نظام الذكاء الاصطناعي الأمثل للبشر، يجب على الشركات أيضاً استكشاف التكنولوجيات التكميلية التي يمكنها معالجة قيود النماذج اللغوية الكبيرة LLMs. في هذا الفضاء السريع الحركة تُجرَى ابتكارات جديدة باستمرار تَعِد بتعزيز قدرات التكنولوجيا، لذلك فإن التحديث المستمر لفهمكم أمر بالغ الأهمية أيضاً.

مثلاً، لتعزيز قدرات التفكير Reasoning، يستكشف الباحثون دمج النماذج اللغوية الكبيرة LLMs بمحركات التفكير Reasoning engines التي تُرمِّز (تشفر) المعلومات الخاصة بالمجال في الرسوم البيانية المعرفية Knowledge graphs التي تمثل العلاقات بين المفاهيم والحقائق المتخصصة. ويدرب الباحثون أيضاً نماذج متخصصة لتقييم التماسك المنطقي Logical coherence بين المواقع المادية في حوافز النموذج اللغوي الكبير ومخرجاته. لزيادة المعرفة Knowledge والخبرة Expertise، تُدرَّب النماذج اللغوية الكبيرة LLMs على قواعد بيانات خاصة بالمجال – مثل نموذج ميد-بالم Med-PaLM من غوغل Google وديب مايند DeepMind، الذي ثبت أنه يتفوق بقدر كبير على النماذج اللغوية الكبيرة LLMs للأغراض العامة في اختبار الترخيص الطبي Medical Licensing exam بالولايات المتحدة. ويمكن أيضاً تحسين موثوقية النموذج اللغوي الكبير من خلال التعلُّم المعزز Reinforcement learning مع الملاحظات التي تُجمَع من خبراء بشريين. ويمكن للنماذج اللغوية الكبيرة LLMs أيضاً تحسين فهمها للطلب المُدخل الأولي للمستخدم من خلال برمجتها لطرح أسئلة متابعة توضيحية قبل تقديم إجابة.

يعني الوعدُ بتطبيق النماذج اللغوية الكبيرة LLMs شبه العالمي أن الشركات مُحقة في أن تكون متحمسة لاستكشاف هذه التكنولوجيا الجديدة القوية. ومع ذلك تستطيع قدرة هذه النماذج الخارقة على توليد مخرجات نصية شبيهة بتلك البشرية أن تقودنا بسهولة إلى أن ننسب إليها قدرات لا تمتلكها. وينبغي أن يسترشد الفهم الصحيح لحدودها بالطريقة والسياق اللذين تُنفَّذ فيهما.

يجب أن تكون الشركات حذرة بنحو خاص في المجالات التي ينطوي عليها التفكير المنطقي، أو تكون الحقائق مهمة، أو قابلية التكرار أمراً بالغ الأهمية، أو تكون المخاطر عالية. في هذه الحالات، تحتاج الشركات إلى استكشاف استخدام التقنيات التكميلية التي تعالج قيود النماذج اللغوية الكبيرة LLMs – مثل الرسوم البيانية المعرفية، ومحركات التفكير، ونماذج المجال المتخصصة – والتأكد من وجود مدخلات بشرية مناسبة وإشراف.

ميخائيل بورتسيف Mikhael Burtsev

دكتوراه، زميل في كرسي لانداو Landau للذكاء الاصطناعي في معهد لندن للعلوم الرياضية London Institute for Mathematical Sciences، والمدير العلمي السابق لمعهد أبحاث الذكاء الاصطناعي Artificial Intelligence Research Institute، ومؤلف أكثر من 100 ورقة في مجال الذكاء الاصطناعي.

مارتن ريفز Martin Reeves

هو رئيس معهد بي سي جي هندرسون BCG Henderson Institute، الذي يركز على استراتيجية الأعمال.

آدم جوب Adam Job

دكتوراه، مدير مختبر الاستراتيجية Strategy Lab في معهد بي سي هندرسون

أبريل 18, 2024

اظهر المزيد

القيود العملية للنماذج اللغوية الكبيرة