نموذج ذكاء اصطناعي لغوي ينافس سابقاته العملاقة
دورية Nature
2022-08-31 08:02
بقلم: إليزابيث جيبني
في محاولةٍ لتحطيم هيمنة شركات التكنولوجيا العملاقة على أنظمة معالجة اللغة الطبيعية، والحد من الأضرار التي قد يخلفها استخدام هذه الأنظمة، عمد فريق دولي، يضم قرابة 1000 متطوع، معظمهم من الأكاديميين، إلى تطوير إصدار جديد من هذه النماذج. وقد تطلب تدريب هذا النموذج اللغوي، المعروف باسم «بلوم» BLOOM جهودًا حوسبية ممولة حكوميًا بلغت قيمتها 7 ملايين دولار. ويُتوقع أن ينافس النماذج المناظرة السابقة له من إصدار شركتي «جوجل» و«أوبن إيه آي» OpenAI، من حيث ضخامة الإمكانات، على أنه سيكون - بعكسها - مفتوح المصدر. فضلًا عن ذلك، يُرتقب أن يغدو «بلوم» أول نموذج متعدد اللغات بهذه الضخامة.
وكان الفريق البحثي الذي سبقت الإشارة إليه، وحمل اسم «بيج ساينس»BigScience ، قد أطلق إصدارًا سابقًا من هذا النموذج في السابع عشر من يونيو الماضي. ويأمل أعضاؤه أن يسهم في نهاية المطاف في تقليل بعض مخرجات البيانات غير محمودة العواقب التي تنتجها أنظمة الذكاء الاصطناعي اللغوية. إذ يتزايد في الوقت الحالي اعتماد شركات التكنولوجيا الكبيرة على نماذج الذكاء الاصطناعي التي يمكنها فهم النصوص اللغوية واستحداثها، وذلك في إطار تطبيقات عدة، بدءًا من روبوتات الدردشة إلى برامج الترجمة، حتى إن النصوص التي تستحدثها هذه النماذج قد تبدو شبيهة بدرجة غريبة ومخيفة لتلك التي يصوغها البشر، إلى حد أن أحد مهندسي شركة «جوجل» زعم خلال شهر يونيو الماضي أن نموذج الذكاء الاصطناعي الذي أنتجته شركته بدا أنه يمتلك وعيًا (وهو ما نفته بقوة شركة «جوجل»). ومع ذلك، تعتري هذه النماذج، من الناحية العملية والأخلاقية، أوجه قصور صارخة. لعل أبرزها محاكاة التحيزات البشرية. وهي مشكلات يصعب على الباحثين علاجها بالنظر إلى أن إجراء أي تعديلات على آليات تشغيل معظم هذه النماذج يُعد بابًا موصدًا للباحثين، كونها مغلقة المصدر.
ويُرتقب أن يفسح «بلوم» المجال لاستكشاف آفاق الذكاء الاصطناعي، فضلًا عن إمكانية الاستعانة به في كثيرٍ من الاستخدامات البحثية، ومن بينها استخلاص المعلومات من النصوص التاريخية، ووضع التصنيفات في علم الأحياء. فحول ذلك، يقول توماس وولف، المؤسس المشارك لشركة «هاجينج فيس» Hugging Face، التي تستضيف منصة مفتوحة المصدر لنماذج الذكاء الاصطناعي ومجموعات البيانات، بالإضافة إلى إسهامها في قيادة مبادرة تطوير النموذج: "نعتقد أن إتاحة استخدام النموذج تُعد خطوةً أساسيةً في الوصول إلى توظيف تطبيقات تعلم الآلة على نحو مسؤول".
برمجيات قادرة على التعلم
النماذج البرمجية اللغوية الضخمة هي خوارزميات يمكنها اكتشاف العلاقات الإحصائية بين مليارات الكلمات والعبارات، من أجل أداء مهام متنوعة، مثل استحداث الملخصات، والترجمة، والرد على الأسئلة، وتصنيف النصوص. وتُطور هذه النماذج بالاستعانة ببنى مستوحاة من الدماغ البشري، تُعرف بالشبكات العصبية، هي ما يكسب هذه النماذج قدرة على التعلم عن طريق تعديل قيم، تُسمى بالمعاملات، بحذف كلمات محددة من النصوص، ثمِّ مقارنة الكلمات المتوقعة أن تملأ فجوات النص بتلك التي سبق حذفها فعليًا. ويحوي «بلوم» 176 مليار معامل، وهو ما يجعله مضاهيًا في كفاءته لنموذج «جي بي تي-3» GPT-3، أحد أفضل ما عُرف من النماذج من هذا القبيل، والذي طورته شركةً «أوبن إيه آي» غير الربحية، وأصدرت ترخيص إنتاجه شركة «مايكروسوفت».
ورغم أن هذه النماذج تثير في بعض الأحيان دهشة مستخدميها بقدرتها على تأليف أبيات شعرية أو الرد بإجابات صحيحة على التساؤلات العامة، فقد وقفت عاجزةً عن فهم روح النصوص اللغوية، لتخرج بنصوص فارغة من المعنى في أحيان أخرى. ولعل ما يثير القلق بدرجة أكبر هو إمكانية أن تسهم هذه النماذج في نشر أفكار الإساءة والاعتداء على الغير أو إيذاء الأشخاص لأنفسهم، أو أن تحاكي الارتباطات الذهنية القائمة على تحيز على أساس الجنس أو العرق المتأصلة في النصوص التي ألفها البشر، والتي تدربت عليها هذه النماذج، كربط الإرهاب بالدين الإسلامي، على سبيل المثال. ويتكلف تدريب هذه النماذج بوجه عام ملايين الدولارات، ويخلف بصمة كربونية ضخمة (من هنا، يعتزم فريق «بيج ساينس» الإفصاح عن حجم الانبعاثات الكربونية الناجمة عن الجهود الحوسبية التي بذلها في تطوير النموذج في نهاية عملية التدريب).
وفي حين أن معظم نماذج اللغات الطبيعية طورتها فرق صغيرة داخل الشركات التي أنتجتها، فقد شارك مئات الباحثين في تطوير «بلوم»، وأغلبهم من الأكاديميين، كما كان من بينهم متخصصون في علم الأخلاق، وفقهاء في القانون، وفلاسفة، فضلًا عن بعض موظفي شركتي «جوجل» و«فيسبوك»، الذين شاركوا بصفتهم الشخصية. كذلك مُنح فريق «بيج ساينس» تصريح الاستخدام المجاني لمنشأة «جين زاي» Jean Zay الفرنسية للحواسيب الفائقة خارج باريس. وقد انقضت فترة تدريب النموذج التي استمرت على مدار ثلاثة أشهر.
نصوصٌ منتقاة بعناية
في هذا السياق، يقول ياساين جيرنيت، الباحث في مجال تعلُّم الآلة بشركة «هاجينج فيس»، أن كفاءة نماذج برمجيات الذكاء الاصطناعي لا تحددها إلا جودة مجموعات البيانات التي قامت عليها هذه النماذج. ومن هنا، فقد كان اختيار النصوص التي سيتدرب عليها النموذج أحد أهم المهام في عملية تطويره. فبخلاف معظم النماذج الضخمة التي تقتنص مصادر لغاتها مباشرةً من صفحات الويب، مثل موقع «ريديت» Reddit؛ انتقى باحثو فريق «بيج ساينس» بعناية قرابة ثلثي البيانات التي استند إليها تدريب النموذج، وقد تكونت من 341 مليار كلمة، من 500 مصدر، من بينها محرك البحث المدعوم بالذكاء الاصطناعي، «سيمانتيك سكولار» Semantic Scholar، المعني بالبحث في المنشورات الأكاديمية، والذي يضم أيضًا محتوى على غرار المقالات الإخبارية الصادرة عن دورية Nature. وقد رُشحت هذه المصادر للاستعانة بها في أثناء عددٍ من حلقات عمل الباحثين، والتي انعقد بعضها بمشاركة فئات مجتمعية، مثل فريق معالجة اللغة الطبيعية، استنادًا إلى نصوص باللغات الأفريقية، «ماساكين» Masakhane، وكذلك فريق مبادرة «لاتينكس إن إيه آي» LatinX in AI، ومبادرة «ماشين ليرننج طوكيو» Machine Learning Tokyo. وقد عقب جيرنيت على ذلك قائلًا: "أردنا أن نتأكد من أن اختيار لغات البيانات التي سيتدرب عليها النموذج سيشارك فيه أشخاص وثيقي الصلة بهذه البيانات، ووثيقي الصلة بالبلدان التي تأتي منها البيانات، ولغاتها".
وسعيًا لتحقيق الاستفادة الكاملة من القدرات الحوسبية المتاحة، استخدم الفريق ثروة هائلة من البيانات، مستعينًا ببرامج تصفح متعددة اللغات، وانتقى ما تجمعه من محتوى للتحقق من جودته، مع تنقيح بعضه وتعديله حفاظًا على خصوصية البيانات. كما سعى الفريق البحثي إلى الحد من التمثيل الزائد عادةً للمواقع الإباحية (التي قد يترتب عليها تضمين النموذج لأفكار مرتبطة بتحيُّز على أساس الجنس) دون استبعاد الكلمات المفتاحية الذي من شأنه أن يؤدي إلى حذف المحتوى المرتبط بمناقشة القضايا الجنسية بشكل صريح في المجتمعات التي كثيرًا ما تنخفض فيها نسبة تمثيل بعض الأطياف.
وقد أقر جيرنيت بأن «بلوم» لن يخلو تمامًا من التحيزات؛ بيد أن الفريق يطمح إلى تحسين أدائه ليتفوق على النماذج المناظرة السابقة له، عن طريق تزويده بمصادر بيانات متعددة الثقافات وعالية الجودة. ومن الأهمية بمكان أن الأكواد ومجموعات البيانات، التي يستند إليها هذا النموذج، مفتوحة المصدر، وهو ما سيمكن الباحثين من تقصي جذور السلوكيات المسيئة. وهذا قد يحسن بدوره جودة النصوص التي يحاكيها النموذج، على حد قول وولف.
وقد أشار إيلي بافليك، الباحث في مجال تعلم اللغات الطبيعية من جامعة براون في بروفيدنس بولاية رود أيلاند الأمريكية، إلى أن تقييم النموذج لن يستند إلى المعايير المعتادة؛ فإلى جانب مقارنة أداء «بلوم» بسابقاته من النماذج، من حيث قدرته على الرد على الأسئلة، على سبيل المثال، يرغب الباحثون في تقييمه بمعايير أكثر تنوعًا، كبحث مدى قدرته على ربط الكلمات بقوالب نمطية محددة، أو مدى تحيزه للغة بعينها. ويحدو بافليك الأمل في أن يؤدي تدريب النموذج على العديد من اللغات إلى وصوله لفهم أعمق لطابع اللغات، وهو ما قد يسهم في توسيع نطاق قدراته ليشمل أداء مهام متنوعة.
استخدام مجاني
وقد أُتيح للباحثين تنزيل نموذج «بلوم» بعد اكتمال تدريبه لتجربة استخدامه، أو تدريبه على بيانات جديدة بغرض توظيفه في تطبيقات محددة. غير أن تنزيل النموذج وتشغيله يتطلب أن تتمتع الأجهزة التي سيعمل عليها بسعة هائلة. وبالنظر إلى أن هذه السعة التخزينية لا تتسنى إلا لعدد محدود للغاية من الفرق البحثية، فمن المزمع أن ينشر فريق «بيج ساينس» أيضًا إصدارات أقل ضخامة من النموذج تستهلك مساحةً أقل في الأجهزة التي تعمل عليها، وأن يُطور نظامًا موزعًا حتى يتسنى للمختبرات تشارُك النموذج عبر خوادمها. كما أصدرت شركة «هاجينج فيس» تطبيق ويب يمكِّن الأشخاص من طرح أسئلة على «بلوم» دون الاضطرار لتنزيله.
كذلك قد تمتد استخدامات «بلوم» إلى الأغراض البحثية خارج مضمار الذكاء الاصطناعي. على سبيل المثال، شارك فرانسيسكو دي توني – عالم اللغويات من جامعة غرب أستراليا في بيرث – في قيادة إحدى مجموعات العمل التي شملها فريق «بيج ساينس». وقد انصب عملها على استخدام نماذج برمجية لاستخلاص المعلومات من مجموعة من النصوص التاريخية، التي بلغت من الضخامة مبلغًا يستحيل معه التنقيب فيها دون الاستعانة بوسائل التكنولوجيا. وتتمتع هذه النماذج، على سبيل المثال، بالقدرة على استخلاص أسماء الأعلام أو البضائع المذكورة في مجموعات الطابات التي تبادلها التجار في عصر النهضة.