تُدرّب النماذج اللغوية الكبيرة LLMs، كنموذج ChatGPT، على كميات هائلة من بيانات المحتوى البشري، لتحسين أدائها، وقدراتها. وكلما زاد حجم قواعد البيانات وجودتها، تطوّرت النماذج المزوّدة بالذكاء الاصطناعي. ولكن نظرًا لتوغل الذكاء الاصطناعي في شتى المجالات، فمن المتوقع أن يحلَّ محتوى الذكاء الاصطناعي مكان المحتوى البشري يومًا ما. ومن ثم قد يتيح تدريب النماذج اللغوية الكبيرة على قواعد بيانات من إنتاج الذكاء الاصطناعي نفسه، مما قد يتسبّب بمشاكل كبيرة.
في دراسة حديثة منشورة بدورية Nature، أثبت الباحثون أن تغذية نماذج الذكاء الاصطناعي بقواعد بيانات من إنتاج نماذج الذكاء الاصطناعي الأخرى، قد يتسبب في انهيار النموذج Model collapse، وفيها يُنتج النموذج محتوى سيئًا، ويدخل في حلقة مُفرغة تؤدي إلى مزيدٍ من التدهور، حتى نحصل في النهاية على محتوى لا علاقة له من قريب أو بعيد بالمُدخلات أو المهام المطلوب تنفيذها.
دلّل الباحثون على ذلك بمثالٍ لنموذج ذكاء اصطناعي دُرّب في البداية على قواعد بيانات نصيّة حول الهندسة المعمارية في العصور الوسطى. وفي الجيل التاسع من التطوير، أصبح الذكاء الاصطناعي يُنشئ قوائمَ عشوائية وعجيبة حول الأرانب البرية.
توضح هذه الدراسة أن نماذج الذكاء الاصطناعي تفشل في التعلم الفعّال عندما تفتقر قواعد بياناتها إلى التنوع، والأصالة، التي يتصف بها المحتوى البشري. ولذا، من الضروريّ مراعاة جودة قواعد البيانات وتنوعها، حتى لا تنهار النماذج، وتتسبّب في المزيد من الأخطاء التي وقعت بالفعل.