الحقيقة بشأن البيانات التخليقية

من الصعب في الأغلب الوصول إلى بيانات العالم الحقيقي اللازمة لتدريب نماذج الذكاء الاصطناعي أو الحصول على تبصرات، لكن قد تساعدنا تقنيات جديدة لتوليد مجموعات للبيانات المشابهة.

مارس 21, 2022

البيانات التخليقية - رجل يحمل حاسوب محمول متصل بصندوق

البيانات Data هي الوقود الأساسي الذي يدفع المؤسسات إلى التحليلات المتقدمة Advanced analytics ومبادرات تعلم الآلة Machine learning، لكن بين مخاوف الخصوصية Psrivacy ومسائل الإجراءات Process، ليس من السهل دائماً على الباحثين وضع أصابعهم على ما يحتاجون إليه بالفعل. هناك سبيل جديد واعد لاستكشاف البيانات التخليقية Synthetic data، والتي يمكن مشاركتها واستخدامها بطرق غير ممكنة مقارنةً ببيانات العالم الحقيقي. ومع ذلك لا يخلو هذا النهج الناشئ من المخاطر أو العيوب، ومن الضروري أن تستكشف المؤسسات بعناية أين وكيف تستثمر مواردها.

ما البيانات التخليقية؟

تُولَّد البيانات التخليقية بنحو مصطنع من خلال خوارزمية للذكاء الاصطناعي AI algorithm دُرِّبت على مجموعة بيانات حقيقية. ولديها القدرة التوقُّعية نفسها مثل البيانات الأصلية لكنها تحل محلها بدلاً من تمويهها Disguising أو تعديلها Modifying. والهدف من ذلك هو استنساخ الخصائص والأنماط الإحصائية لمجموعة بيانات موجودة عن طريق نمذجة توزيعها الاحتمالي وأخذ عينات منها. وتولد الخوارزمية أساساً بيانات جديدة تحتوي على الخصائص نفسها كلها للبيانات الأصلية– مما يؤدي إلى الإجابات نفسها. ومع ذلك، وبنحو حاسم، من المستحيل تقريباً إعادة بناء البيانات الأصلية (خذ بعين الاعتبار المعلومات التي يمكن التعرف عليها) سواء من الخوارزمية أو البيانات التخليقية التي أنشأتها.

تُعَد البيانات التخليقية نعمة للباحثين. انظروا فيما تفعله المعاهد الوطنية للصحة National Institutes of Health في الولايات المتحدة مع سنتغرا Syntegra، وهي شركة ناشئة في مجال خدمات تكنولوجيا المعلومات. تَستخدم سنتغرا محركها للبيانات الاصطناعية لتولد وتتحقق من صحة نسخة طبق الأصل من دون الكشف عن معلومات شخصية، وذلك من قاعدة بيانات المعاهد القومية للصحة لسجلات مرضى كوفيد-19، التي تضم أكثر من 2.7 مليون شخص فُحِصوا وأكثر من 413,000 مريض مصاب بكوفيد-19. ويمكن للباحثين في أنحاء العالم كله أن يتشاركوا ويستخدموا مجموعة البيانات التخليقية، التي تكرر بدقة الخصائص الإحصائية لمجموعة البيانات الأصلية لكن من دون أي صلات بالمعلومات الأصلية، لمعرفة مزيد عن المرض وتسريع التقدم في العلاجات واللقاحات.

هذه التكنولوجيا لديها إمكانات واعدة في نطاق من الصناعات. وفي الخدمات المالية، حيث القيود المفروضة على استخدام البيانات وخصوصية العملاء تشكل حدوداً قاطعة بنحو خاص، بدأت الشركات في استخدام البيانات التخليقية لمساعدتها على تحديد التحيز Bias والقضاء عليه في كيفية تعاملها مع العملاء– من دون مخالفة لوائح خصوصية البيانات. ويرى البائعون بالتجزئة إمكانية تدفق إيرادات جديدة مستمدة من بيع البيانات التخليقية حول سلوك شراء العملاء من دون الكشف عن معلومات شخصية.

القيمة للأعمال: الأمان والسرعة والنطاق

الفائدة الأكثر وضوحاً للبيانات الاصطناعية هي أنها تزيل خطر كشف البيانات المهمة وتعريض خصوصية الشركات والعملاء وأمنهم للخطر. وتركز تقنيات مثل التشفير (التعمية) Encryption، وعدم الكشف عن الهوية Anonymization، والحفاظ المتقدم على الخصوصية Advanced privacy preservation (مثل التشفير المثلي Homomorphic encryption أو الحوسبة الآمنة المتعددة الأطراف Secure multiparty computation) على حماية البيانات الأصلية والمعلومات التي تحتوي عليها البيانات التي يمكن إرجاعها إلى فرد. لكن ما دامت البيانات الأصلية قيد التشغيل، هناك دائماً خطر تعريضها للخطر أو كشفها بطريقة ما.

ومن خلال إزالة الحواجز التي تستغرق وقتاً طويلاً في بروتوكولات الخصوصية والأمن Privacy and security protocols، تسمح البيانات التخليقية أيضاً للمؤسسات بالوصول إلى البيانات بسرعة أكبر. خُذ بعين الاعتبار مؤسسة مالية لديها مجموعة من البيانات الغنية التي يمكن أن تساعد متخذي القرارات على حل مجموعة متنوعة من مشكلات الأعمال. كانت البيانات محمية جداً، وكان الوصول إليها عملية شاقة، حتى للاستخدام الداخلي البحت. في إحدى الحالات استغرق الحصول على كمية صغيرة من البيانات ستة أشهر، وستة أشهر أخرى للحصول على تحديث البيانات. والآن بعدما تولد الشركة بيانات اصطناعية استناداً إلى البيانات الأصلية، يمكن للفريق تحديثها ونمذجتها باستمرار وتوليد تبصرات (رؤى) مستمرة حول كيفية تحسين أداء الأعمال.

وإضافة إلى ذلك، مع البيانات التخليقية، يمكن للشركة تدريب نماذج تعلم الآلة بسرعة على مجموعات البيانات الكبيرة، وتسريع عمليات التدريب والاختبار وتطبيق حل من حلول الذكاء الاصطناعي. وهذا يعالج تحدياً حقيقياً تواجهه عديد من الشركات: عدم وجود بيانات كافية لتدريب نموذج. والوصول إلى مجموعة كبيرة من البيانات التخليقية يمنح مهندسي تعلم الآلة وعلماء البيانات مزيداً من الثقة بالنتائج التي يحصلون عليها في المراحل المختلفة من تطوير النموذج– وهذا يعني الوصول إلى السوق بسرعة أكبر مع منتجات وخدمات جديدة.

كذلك يتيح الأمن والسرعة النطاق، مما يزيد من كمية البيانات المتاحة للتحليل. وفي حين يمكن للشركات حالياً شراء بيانات جهة ثالثة Third-party data، تكون في الأغلب باهظة التكلفة. فشراء مجموعات البيانات التخليقية من طرف ثالث ينبغي أن ييسر على الشركات جلب مزيد من البيانات للتأثير في المشكلة التي تحاول حلها والحصول على إجابات أكثر دقة، وبطريقة أقل تكلفة.

مثلاً تقع على عاتق كل بنك التزامات بتحديد الاحتيال والقضاء عليه. وهذا سعي انفرادي وكثيف الموارد لكل مصرف، لأن المنظمين يسمحون للبنك بفحص البيانات الخاصة به فقط بحثاً عن نشاط مشبوه. وإذا جمعت البنوك مجموعات بياناتها الاصطناعية، يمكن أن تحصل على صورة شاملة لمعظم الأشخاص الذين يتفاعلون مع البنوك في بلد معين، وليس فقط مؤسستها الخاصة، ما سيساعد على تبسيط عملية الكشف والتعجيل بها، وفي نهاية المطاف القضاء على مزيد من الاحتيال باستخدام موارد أقل.

لماذا لا يستخدمها الجميع؟

إن توليد البيانات التخليقية عملية معقدة جداً. وتحتاج المؤسسة إلى الاضطلاع بأكثر من مجرد توصيل أداة الذكاء الاصطناعي– هي تحتاج إلى أشخاص ذوي مهارات متخصصة ومعرفة متقدمة في الذكاء الاصطناعي.

في حين أن فوائد البيانات التخليقية واضحة، قد يكون تحقيقها صعباً. إن توليد البيانات التخليقية عملية معقدة جداً، وللاضطلاع بذلك بنحو صحيح، تحتاج المؤسسة إلى الاضطلاع بأكثر من مجرد توصيل أداة الذكاء الاصطناعي لتحليل مجموعات البيانات الخاصة بها. تتطلب المهمة أشخاصاً ذوي مهارات متخصصة ومعرفة متقدمة حقاً في الذكاء الاصطناعي. وتحتاج الشركة أيضاً إلى أطر ومقاييس محددة ومتطورة جداً تمكنها من التحقق من أنها أنشأت ما اعتزمت إنشاءه. وهذه هي المرحلة حيث تصبح الأمور شديدة التعقيد.

إن تقييم البيانات التخليقية أمر معقد بسبب عديد من حالات الاستخدام المحتملة المختلفة. وهناك أنواع محددة من البيانات التخليقية ضرورية لمهام مختلفة (مثل التوقع أو التحليل الإحصائي)، وتأتي هذه الأنواع مع مقاييس أداء Performance metrics ومتطلبات Requirements وقيود خصوصية Privacy constraints مختلفة. وإضافةً إلى ذلك تملي أنماط البيانات المختلفة متطلباتها وتحدياتها الفريدة.

مثال بسيط: لنفترض أنكم تقيمون بيانات تتضمن تاريخاً ومكاناً. يعمل هذان المتغيران المنفصلان بطرق مختلفة ويتطلبان مقاييس مختلفة لمتابعتهما. الآن تخيلوا بيانات تتضمن مئات المتغيرات المختلفة، وكلها تحتاج إلى تقييم مع مقاييس محددة جداً، ويمكنكم البدء في رؤية مدى التعقيد والتحدي. نحن فقط في المراحل الأولى من إنشاء الأدوات والأطر والمقاييس اللازمة لتقييم و”ضمان“ دقة البيانات التخليقية. والوصول إلى نهج تخليقي قابل للتكرار حاسماً لإنشاء بيانات تخليقية دقيقة من خلال عملية قياسية يقبلها الجميع– وموثوق بها.

كذلك، فإن مفهوم البيانات التخليقية تكبحه المقاومة الثقافية التي يواجهها في عديد من الشركات: ”لن ينجح الأمر في شركتنا“. أو ”أنا لا أثق به– لا يبدو آمناً“. أو ”لن تقبل الجهات التنظيمية ذلك أبداً“. سيكون تثقيف المسؤولين التنفيذيين، وكذلك فرق المخاطر والفرق القانونية، وإقناعُهم بأن البيانات التخليقية تنجح حاسمين في تبني هذا النهج.

ما الخطأ الذي يمكن أن يحدث؟

إثبات صحة البيانات التخليقية هو النقطة الحاسمة. يجب أن يكون الفريق القائم على المحاولة قادراً على إثبات أن البيانات التخليقية التي أنشأها تمثل البيانات الأصلية حقاً– لكن لا يمكن ربطها بمجموعة البيانات الأصلية أو كشف البيانات الأصلية بأي شكل من الأشكال. وفعل هذا صعب جداً. إذا لم تطابق مجموعة البيانات التخليقية بالضبط، فلا تكون صالحة حقاً، ما يثير مجموعة من المشكلات المحتملة.

مثلاً فلنفترض أنكم أنشأتم مجموعة بيانات تخليقية للاستنارة بها في تطوير منتج جديد. وإذا كانت المجموعة التخليقية لا تمثل حقاً مجموعة بيانات العملاء الأصلية، فقد تحتوي على مؤشرات شراء خاطئة فيما يتعلق بما يهتم به العملاء أو يميلون إلى شرائه. ونتيجة لذلك قد ينتهي بكم الأمر إلى إنفاق كثير من المال لإنشاء منتج لا يريده أحد.

ويمكن لإنشاء بيانات تخليقية غير صحيحة أيضاً أن يوقع الشركة في مشكلات مع الجهات التنظيمية. فإذا أدى استخدام هذه البيانات إلى مشكلة امتثال Compliance أو مشكلة قانونية– مثل إنشاء منتج أضر بشخص ما أو لم يعمل كما هو معلن– قد يعني ذلك عقوبات مالية كبيرة، وربما تدقيقاً شديداً في أعمالها في المستقبل. وقد بدأت الجهات التنظيمية من فورها تقييمَ كيفية إنشاء البيانات التخليقية وقياسها، فضلاً عن تشاركها، وبلا شك سيكون للجهات التنظيمية دور في توجيه هذه العملية.

إن التداعيات البعيدة- لكن الفعلية- للبيانات التخليقية المنشأة بنحو غير صحيح هي إمكانية ما يُعرَف باسم هجمات الاستدلال Inference attacks على الأعضاء. فالمفهوم الكامل للبيانات التخليقية هو أنها ليست مرتبطة بأي شكل من الأشكال بالبيانات الأصلية. لكن إذا لم تُنشَأ بنحو صحيح تماماً، فقد تتمكن أطراف فاعلة خبيثة من العثور على ثغرة أمنية تمكنها من تتبع بعض نقاط البيانات إلى مجموعة البيانات الأصلية والاستدلال على هوية شخص معين. ومن ثم يمكن للأطراف الخبيثة استخدامُ هذه المعرفة للتحقيق والتشكيك باستمرار في المجموعة التخليقية ومعرفة البقية في نهاية المطاف– أي كشف مجموعة البيانات الأصلية بكاملها. من الناحية التقنية يكون الاضطلاع بهذا الأمر صعباً جداً. لكن مع الموارد المناسبة، ليس مستحيلاً– وإذا نجح يمكن أن تكون الآثار وخيمة.

إذا لم تُعدِّل الشركة نماذج الذكاء الاصطناعي لمراعاة التحيز، ونسخت ببساطةٍ نمطَ الأصل، فستكون للبيانات التخليقية التحيزات نفسها– بل وقد تُضخم هذه التحيزات.

ومن المشكلات المحتمَلة في البيانات التخليقية التي يمكن أن تنتج حتى لو أُنشِئت مجموعة البيانات بنحو صحيح هو التحيز Bias، الذي يمكن أن يزحف بسهولة إلى نماذج الذكاء الاصطناعي التي دُرِّبت على مجموعات بيانات أنشأها الإنسان وتحتوي على تحيزات تاريخية متأصلة. ويمكن استخدام البيانات التخليقية لتوليد مجموعات بيانات تتوافق مع تعريف متفق عليه مسبقاً للإنصاف Fairness. وباستخدام هذا المقياس كقيد Constraint لنموذج الأمثلة Optimizing model، لن تعكس مجموعة البيانات الجديدة فقط بدقة النموذج الأصلي بل تفعل ذلك بطريقة تلبي هذا التعريف المحدد للإنصاف. لكن إذا لم تدخل الشركة تعديلات معقدة على نماذج الذكاء الاصطناعي لمراعاة التحيز ونسخت ببساطة نمط الأصل، ستكون للبيانات التخليقية التحيزات نفسها– بل وقد تضخم في بعض الحالات هذه التحيزات.

ما الذي يتطلبه المضي قدماً

مع نضج المهارات والأطر والمقاييس والتكنولوجيات ذات الصلة، ستسمع الشركات كثيراً عن البيانات التخليقية في السنوات المقبلة. وفي أثناء تقييم الشركات لما إذا كانت مفيدة لهم، يجب عليها النظر في الأسئلة الأربعة التالية:

1. هل يعرف الأشخاص المناسبون ما الذي نفعله؟ البيانات التخليقية مفهوم جديد ومعقد بالنسبة إلى معظم الناس. وقبل طرح أي برنامج بيانات تخليقية، من المهم أن يفهم المسؤولون التنفيذيون C-suite جميعاً، وكذلك فرق المخاطر والفرق القانونية، تماماً ما هي عليه، وكيف ستُستخدَم، وكيف يمكن أن تفيد المؤسسة.

2. هل لدينا إمكانية الوصول إلى المهارات اللازمة؟ إن إنشاء البيانات التخليقية عملية معقدة جداً، لذلك تحتاج المؤسسات إلى تحديد ما إذا كان علماء البيانات ومهندسوها قادرين على تعلُّم كيفية الاضطلاع بذلك. وينبغي لهم أن ينظروا في عدد المرات التي سينشئون فيها هذه البيانات، مما سيؤثر فيما إذا كان ينبغي لهم أن ينفقوا الوقت والمال في بناء هذه القدرة أو التعاقد مع خبرة خارجية وفق الحاجة.

3. هل لدينا غرض واضح؟ يجب إنشاء البيانات التخليقية مع مراعاة غرض معين، لأن الاستخدام المقصود يؤثر في كيفية إنشائها وتحديد أيٍّ من خصائص البيانات الأصلية يجب الاحتفاظ بها. وإذا كان أحد الاستخدامات المحتملة هو بيعَها لإنشاء تدفق إيرادات Revenue stream جديد، يكون التخطيط لنموذج الأعمال Business model الجديد المحتمل هو العامل الرئيس.

4. ما نطاق طموحاتنا؟ ليس إنشاء بيانات تخليقية لضعاف القلوب. فالتعقيد الكبير المرتبط بالاضطلاع بذلك على نحو صحيح– والمزالق المحتملة للاضطلاع بذلك على نحو خاطئ– يعني أن على المؤسسات أن تتأكد من أنها ستحقق قيمة Value كافية في المقابل.

على الرغم من أن البيانات التخليقية لا تزال في المرحلة الأحدث من علم البيانات يجرب مزيد من المؤسسات كيفية إخراجها من المختبر وتطبيقها على تحديات الأعمال في العالم الحقيقي. ولم يتضح بعدُ كيف سيتكشف هذا التطور والجدول الزمني الذي سيتبعه. لكن قادة المؤسسات الموجهة بالبيانات Data-driven organizations يجب أن يعرفوه، ويستعدوا للنظر في تطبيقه حين يكون الوقت مناسباً لهم.

فرناندو لوتشيني

فرناندو لوتشيني Fernando Lucini

(@fernandolucini) رائد عالمي لعلم البيانات وهندسة تعلُّم الآلة لدى أكسنتشر للذكاء التطبيقي Accenture Applied Intelligence. للتعليق على هذا الموضوع: https://sloanreview.mit.edu/x/63217.