وحدة البيانات هي قيمة محددة ضمن مجموعة من القيم نشير إليها عادةً مجتمعة باسم البيانات. وننطلق من هذه الجزيئات النواة من الفكر الفلسفي والعلمي ونجمّعها للوصول إلى ما نعتبره الحقائق. ونستند إلى الحقائق التي نقرؤها ونسمعها لنكتشف عالم الأشياء التي لا يمكننا أن نراها بأنفسنا. فبهذه الطريقة مثلاً، نتعلم “حقائق” حول جهاز المناعة لدينا والاقتصاد والكون.
غير أن عملية تحديد ما هو حقيقة وما ليس حقيقة ومناقشته والتواصل بشأنه هي عملية محفوفة بالمخاطر. وفي مجال الرياضيات، تشكل الحقيقة شيئاً يمكن إخضاعه للمنطق الصارم وبرهنة صحته.
وفي مجالات العلوم الأوسع، تكون الحقائق قابلة للملاحظة ويمكن تكرارها، إذ إنها حقائق مستخلصة من التجارب تقدم لنا عند تراكمها فهماً أفضل لطبيعة الواقع. ولكن لطالما شكل الاتفاق على حقيقة ما تحدياً صعباً، لاسيما في مجال النشر حيث تختلف احتياجات الناشرين والمؤلفين والمؤثرين ومختلف التيارات المضادة التي تسعى إلى إخفاء الحقائق أو الاختلاف بشأنها ببساطة.
وتعود مشكلة الأخبار المزيفة، أو المعلومات المضللة أو المغلوطة بشكلٍ عام، إلى اختراع المطبعة على أقل تقدير. ولقد تعمّق السير توماس براون في هذا المفهوم في عام 1646 في كتابه “استفسارات حول الكثير من العقائد المتلقاة، والحقائق المغلوطة الشائعة“. وتم ذكر مصطلح “الأخبار المزيفة” لأول مرة باللغة الإنجليزية حوالي عام 1890 بحسب قاموس ميريام وبستر.
أصبح استخدام معالجة اللغات الطبيعية لإثبات الحقائق تلقائياً ضرورة أساسية نظراً لانتشار المعلومات المضللة بمختلف أشكالها، لا سيما على منصات التواصل الاجتماعي.
نائب رئيس قسم معالجة اللغات الطبيعية، بروفيسور في قسم معالجة اللغات الطبيعية
فكيف يمكن لمستهلكي الأخبار والمعلومات أن يميزوا بين الحقيقة والخيال؟ بحسب رأي بريسلاف ناكوف وزميله في بحوث ما بعد الدكتوراه ليانغمينغ بان في جامعة محمد بن زايد للذكاء الاصطناعي، وزملائهما من جامعة كاليفورنيا في سانتا باربرا وجامعة نانيانغ التكنولوجية وجامعة سنغافورة الوطنية، يمكن إعادة توجيه قدرات “شات جي بي تي” لتمكين إثبات الحقائق.
يبرهن نائب رئيس قسم معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي والأستاذ فيها البروفيسور بريسلاف ناكوف والمؤلفون المشاركون معه في أحدث ورقة بحثية لهم أنه يمكن استخدام “شات جي بي تي” لإثبات حقائق المعلومات المنشورة بسرعة، علماً أن هذا المحرك هو الأداة نفسها التي تلجأ إليها الجهات المسيئة لإنشاء الأخبار الزائفة بوتيرة هائلة.
تحمل هذه الورقة عنوان: “إثبات الحقائق في الادعاءات المعقدة باستخدام الاستدلال الذي توجهه البرامج” وتم قبولها في مؤتمر جمعية اللغويات الحاسوبية لعام 2023. ويوضح ناكوف وزملاؤه في هذه الورقة كيفية تطوير برنامج ProgramFC، وهو عبارة عن نظام يتعامل مع الادعاءات المعقدة ويقسمها إلى الأجزاء أو وحدات البيانات التي تتكون منها ومن ثم يتحقق منها بهدف التوصل إلى قرار حول ما إذا كان الادعاء صحيحاً أو خاطئاً. ولقد اختبر المؤلفون هذا البرنامج عبر مقارنته مع معايير متعددة معتمدة في القطاع، ووجدوا أن أداء ProgramFC تجاوز بكثير أداء كل الأنظمة الأخرى المستخدمة.
أصبحت النماذج اللغوية الكبيرة، مثل “شات جي بي تي” معروفة حول العالم بفضل إنجازاتها وإخفاقاتها. ويكفي أن يطرح المستخدم سؤالاً ليحصل على إجابة دقيقة وقريبة بشكلٍ مفاجئ من الإجابات البشرية، ولكنها قد تكون خاطئة. ولذلك، من الطبيعي أن يفترض المرء أن استخدام “شات جي بي تي” لإثبات الحقائق في الادعاءات على الإنترنت قد لا يكون الخيار الأمثل. ولكن يتبين أحياناً في مجال العلوم أن الأفكار غير المتوقعة هي التي تكون مفيدة.
في الواقع، شعر ناكوف والمؤلفون المشاركون بالإحباط إزاء الوضع الحالي لجهود إثبات الحقائق، فبدأوا بإسناد مهام متعددة متعلقة بإثبات الحقائق إلى برنامج “شات جي بي تي”. وبعد توضيح التعليمات وتعزيز هيكلية الاختبارات، توصلوا إلى وسيلة أفضل وفق التجارب لإثبات الحقائق في الادعاءات.
ويشكل الاستدلال القائم على سلسلة الأفكار أحد الجوانب الأساسية من بحثهم، وهو مفهوم يرى الباحثون أنه يخفف العبء على النماذج اللغوية الكبيرة فيما يسمح في الوقت نفسه بمرونة إضافية في عملية إثبات الحقائق. لا بل يستخدم برنامج ProgramFC “برامج الاستدلال لتقديم تفسيرات واضحة لعملية الاستدلال إلى المستخدم” بحسب الورقة البحثية.
ويستطيع هذا النظام أن يفكك ويقيّم مسارات المحتوى بسرعة، بالإضافة إلى أنه يتجنب الوقوع في فخ الصندوق الأسود الذي تقع فيه العديد من أنظمة الذكاء الاصطناعي المتوفرة اليوم، ويتمثل هذا الفخ في عدم مساعدة المستخدمين البشر على اكتساب فهم كامل حول كيفية توصل النظام إلى استنتاجاته.
ويقول ناكوف: “أصبح استخدام معالجة اللغات الطبيعية لإثبات الحقائق تلقائياً ضرورة أساسية نظراً لانتشار المعلومات المضللة بمختلف أشكالها، لا سيما على منصات التواصل الاجتماعي. تمثل هدفنا في تطوير نظام لإثبات الحقائق يكون فاعلاً ويمكن تفسيره ويستطيع أن يطبق الاستدلال المعقد، وذلك لضمان نسبة نجاح عالية. يشكل ProgramFC خطوة جيدة في هذا التجاه.”
ويضيف: “يأخذ النظام الادعاءات المعقدة ويفككها إلى خطة أو سلسلة من خطوات الاستدلال البسيطة. أي أنه يترجم الادعاءات المعقدة إلى برنامج حاسوبي موجز يطبق الخطة المنطقية لإثبات الحقائق. ويتألف البرنامج من ثلاثة عناصر أساسية وهي: الإجابة عن الأسئلة البسيطة، وإثبات حقائق الادعاءات البسيطة، وحل التعابير المنطقية.”
وبهدف عرض كيفية عمل النظام، يعطي المؤلفون المثال التالي: تشير الورقة البحثية إلى تفكيك ادعاء معقد والتشكيك فيه وهو “وُلد كلا جايمس كامرون ومخرج فيلم انترستيلر في كندا”.
يستخدم النظام نموذج “كودكس” لتفكيك هذا الادعاء المعقد وتحويله إلى برنامج استدلال يتألف من ثلاث خطوات استدلالية وهي: أين وُلد جايمس كامرون؛ من مخرج فيلم انترستيلر؛ أين ولد هذا الشخص. وبعد إنشاء هذا “المخطط” الاستدلالي، يُسنِد ProgramFC كل مهمة فرعية إلى وكيل خارجي مناسب، على غرار محرك للأسئلة والأجوبة، من أجل حل كل مشكلة فرعية.
ويقول ليانغمينغ بان، وهو المطور الرئيسي للنظام: “في نهاية المطاف، يحدد النظام ما إذا كان الادعاء خاطئاً استناداً إلى واقع أن كريستوفر نولان كان مخرج فيلم انترستيلر وهو ولد في المملكة المتحدة. كما يترجم النظام ذلك إلى لغة بشرية سهلة ليتمكن المستخدم من التدقيق في الحقائق وفهم الادعاءات المعقدة بسرعة.”
زميل ما بعد الدكتوراه في جامعة في جامعة محمد بن زايد للذكاء الاصطناعي، ليانغمينغ بان
والمثير للاهتمام هو أن فاعلية النظام الذي طوره الفريق ازدادت مع ازدياد تعقيد السيناريوهات مقارنة مع المعايير القياسية. وهذا يعني أنه كلما ازداد الادعاء تعقيداً كلما ازداد عدد الخطوات الضرورية لإثبات حقائق الادعاء بالكامل وكلما أصبح النظام قادراً على التوصل إلى استنتاج دقيق مقارنة مع الأنظمة المنافسة. ولكن يشير المؤلفون إلى أن النظام يواجه صعوبة أكبر في التعامل مع الادعاءات الضمنية مثل “لم يكن أرسطو ليتمكن من استخدام حاسوب محمول” وهو يسجل أداءً أسوء في هذه السيناريوهات، وهي مسألة تحتاج إلى التحسين.
يرى الفريق أن بإمكان هذا النموذج في نهاية المطاف أن يعود بالفائدة على الناس عموماً وعلى العاملين في مجال إثبات الحقائق خصوصاً وهم الأفراد الذين صُمم النموذج لدعمهم. ويعترف الفريق أيضاً أن تدريب وحدات معالجة الرسوميات ووحدات معالجة تينسر يترك بصمة كربونية كبيرة، وهي مشكلة يسعى إلى حلها عدد من الباحثين في جامعة محمد بن زايد للذكاء الاصطناعي.
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
A team from MBZUAI is improving LLMs' performance across languages by helping them find the nuances of.....
A team from MBZUAI created a fine-grained benchmark to analyze each step of the fact-checking process and.....