TabPFN: نموذج يغير قواعد تحليل البيانات الجدولية وتنبؤ القيم المفقودة
5 أبريل 2025

تُستخدم جداول البيانات في العديد من المجالات العلميّة، مثل: الطب، والفيزياء، والاقتصاد، بهدف تنظيم البيانات في صفوفٍ وأعمدة، مما يجعل تحليلها والتعامل معها أكثر سهولة ومرونة. على سبيل المثال، يحتاج الأطباء وعلماء الأحياء إلى تنظيم القياسات السريريّة أو الجزيئيّة في جدولٍ واضح؛ لمعرفة تأثير الأدوية، أو التغيرات الجينيّة. كما يعتمد الاقتصاديون على الجداول؛ لتحليل المؤشرات المالية، وتتبع الأداء الاقتصادي. ومع ازدياد حجم البيانات في هذه الحقول، يُصبح التنبؤ بالقيم المفقودة، واستكمالها، أحد أبرز التحديات.

ورغم التقدّم الكبير في مجال الذكاء الاصطناعي ونجاحاته المبهرة في معالجة النصوص، والصور، ما تزال البيانات الجدولية تشكّل تحديًا ملحوظًا؛ فقد كانت قدرات خوارزميات التعلّم العميق Deep Learning على التعامل مع الجداول في البداية محدودة نسبيًا، مقارنةً بنجاحها في مجالات أخرى. نتيجة لذلك، ولفترةٍ طويلة، ظلّت تقنيات الأشجار المُعززة اشتقاقيًا Gradient-Boosted Decision Trees1 متصدرةً في أداء المهام التنبؤية على البيانات الجدولية، رغم ما تعانيه من قيود تتعلق بصعوبة الضبط اليدوي، واستهلاكها الكبير للموارد والوقت عند التعامل مع مجموعات هائلة البيانات. 

السؤال: هل يُقدّم الذكاء الاصطناعي بديلًا لتقنية الأشجار؟

لتخطي عقبات الطرق التقليدية، كالأشجار المعززة، تساءل الباحثون عن مدى إمكانية تطويع الذكاء الاصطناعي لتوليد تقنية جديدة. هنا، قدّم الباحثون نموذجًا يُسمى TabPFN، وهو نموذجٌ تأسيسي Foundation Model2 مُدرَّب مُسبقًا على مجموعة ضخمة من البيانات، وعلى ميزات مثل: الضبط الدقيق، وتوليد البيانات. يعتمد نموذج TabPFN على فكرة التعلّم من خلال السياق In-Context Learning التي أظهرت فعاليتها في النماذج اللغوية الكبيرة، مثل: ChatGPT، حيث يتم تدريب الشبكة العصبيّة على ملايين المهام لاستنتاج خوارزمية تنبؤيّة عامة.

المنهجية: الأساس الذي يقوم عليه نموذج TabPFN

اعتمد الفريق البحثي منهجية مُبتكرة تقوم على ثلاث ركائز: 

أولًا، توليد بيانات جدولية اصطناعية باستخدام نماذج سببية هيكلية Structural Causal Models لمحاكاة العلاقات بين المتغيرات بطريقة تشبه الواقع. وتهدف هذه النماذج إلى تمثيل العلاقات السببيّة بين السمات المختلفة، والقيم المستهدفة، مثل: تأثير درجة الحرارة على عدد المبيعات. 

ثانيًا، صُممت بنية مُحَوّلٌ Transformer architecture، وهي شبكة عصبونية تستخدم في معالجة الحاسوب للّغة، خصيصًا للتعامل مع البيانات الجدولية، وقد عُدّلت  للاستفادة من آليات الانتباه ثنائية الاتجاه التي تركز على تحليل التفاعلات بين الصفوف والأعمدة معًا، وأسماها الباحثون بالشبكات المدربة على البيانات الأولية PFN: Prior-data Fitted Networks. تتيح هذه البنية للنموذج فهم العلاقات المعقدة داخل الجداول، مثل: التفاعل بين بيانات العملاء (الصفوف) وخصائص المنتجات (الأعمدة)، مما يُساعد في اكتشاف أنماط وارتباطات غير مباشرة. 

وأخيرًا، خضع  النموذج للتدريب على عددٍ ضخم للغاية من المهام، تحديدًا 130 مليون مهمةٍ لجعله مُلمًا بأكبر عدد ممكن من الأنماط.

نتائج واعدة

أظهرت اختبارات النموذج تفوقًا واضحًا على الأساليب التقليدية في مهام التصنيف، والانحدار. فعلى سبيل المثال، حقّق TabPFN تحسّنًا بنسبة 18.7% مقارنة بأقوى المنافسين CatBoost عند استخدام الإعدادات الافتراضية، كما تميّز بسرعته الكبيرة في التدريب، إذ إنّه كان أسرع بآلاف المرات على المهام الجدولية واسعة النطاق.

ماذا بعد؟

تُشير هذه النتائج إلى إمكانية تبني TabPFN في تطبيقات علمية وصناعية متنوعة، مثل: تطوير الأدوية؛ حيث تتطلّب التجارب تقييمًا سريعًا لعشرات الآلاف من المركبات، أو في المجالات المالية التي تحتاج إلى تحليلات لحظية معقدة. كما يتيح النموذج تقدير الكثافة، وتوليد البيانات الاصطناعية، مما يساعد الباحثين على كشف الأنماط الغريبة  وتحسين جودة البيانات.

على الهامش:
  1. أشجار اتخاذ القرار المعززة اشتقاقيًا GBDT: تقنية تعلم آلي، تبدأ بنموذج تعلم ضعيف، ثم تستخدم عدة أشجار إضافية لتصحيح الأخطاء الناتجة، عن طريق حساب الفرق بين التوقعات، والقيم الفعلية.
  2. نموذج التأسيس  Foundation Model: نموذج تعلم آلي يتم تدريبه مسبقًا على بيانات عامة ضخمة، ويمكن تخصيصه لمهام، أو مجالات معينة دون الحاجة لتدريب كامل جديد.

اقتراح ومراجعة علمية
د/ أحمد بركات
جامعة ميونيخ التقنية، وكلية الهندسة بجامعة عين شمس
تدقيق ومراجعة لغوية
أحمد صفوت
صحفي حر
د/ أحمد بركات
جامعة ميونيخ التقنية، وكلية الهندسة بجامعة عين شمس
علا زيادة
جامعة القاهرة