نماذج اللغة لا تخطئ فحسب، بل تختلق الواقع بثقة تامة. قد يزعم وكيل الذكاء الاصطناعي أنه أنشأ سجلات قاعدة بيانات غير موجودة، أو يصر على أنه نفذ إجراءات لم يحاول القيام بها أبدًا. بالنسبة للفرق التي تنشر هذه الأنظمة في الإنتاج، فإن هذا التمييز يحدد كيفية إصلاح المشكلة.
يتخصص دميترو كياشكو في اختبار أنظمة الذكاء الاصطناعي. يركز عمله على سؤال واحد: كيف يمكنك اكتشاف كذب النموذج بشكل منهجي؟
مشكلة اختبار الهراء الواثق
البرامج التقليدية تفشل بشكل يمكن التنبؤ به. تُرجع الوظيفة المعطلة خطأ. توفر واجهة برمجة التطبيقات المهيأة بشكل خاطئ إشارة فشل حتمية - عادةً ما تكون رمز حالة HTTP قياسي ورسالة خطأ قابلة للقراءة توضح ما حدث خطأ.
نماذج اللغة تنكسر بشكل مختلف. ستبلغ عن إكمال مهام لم تبدأها مطلقًا، واسترداد معلومات من قواعد بيانات لم تستعلم عنها أبدًا، ووصف إجراءات موجودة فقط في بيانات التدريب الخاصة بها. تبدو الردود صحيحة. المحتوى مختلق.
"كل وكيل ذكاء اصطناعي يعمل وفقًا للتعليمات التي أعدها المهندسون"، يوضح كياشكو. "نحن نعرف بالضبط ما يمكن لوكيلنا القيام به وما لا يمكنه القيام به". تصبح هذه المعرفة الأساس للتمييز بين الهلوسة والأخطاء.
إذا فشل وكيل مدرب على الاستعلام عن قاعدة بيانات بصمت، فهذا خطأ برمجي. لكن إذا أرجع نتائج استعلام مفصلة دون لمس قاعدة البيانات؟ هذه هلوسة. اخترع النموذج مخرجات معقولة بناءً على أنماط التدريب.
التحقق مقابل الحقيقة الأساسية
يركز نهج كياشكو على التحقق من حالة النظام الفعلية. عندما يزعم الوكيل أنه أنشأ سجلات، تتحقق اختباراته مما إذا كانت هذه السجلات موجودة. استجابة الوكيل لا تهم إذا كان النظام يناقضها.
"أستخدم عادةً أنواعًا مختلفة من الاختبارات السلبية - سواء اختبارات الوحدة أو التكامل - للتحقق من هلوسة LLM"، كما يشير. تطلب هذه الاختبارات عمداً إجراءات يفتقر الوكيل إلى إذن لتنفيذها، ثم تتحقق من أن الوكيل لا يؤكد النجاح بشكل خاطئ وأن حالة النظام تظل دون تغيير.
تختبر إحدى التقنيات القيود المعروفة. يُطلب من وكيل بدون أذونات كتابة قاعدة البيانات إنشاء سجلات. يتحقق الاختبار من عدم ظهور بيانات غير مصرح بها وأن الاستجابة لا تدعي النجاح.
الطريقة الأكثر فعالية تستخدم بيانات الإنتاج. "أستخدم سجل محادثات العملاء، وأحول كل شيء إلى تنسيق JSON، وأقوم بتشغيل اختباراتي باستخدام ملف JSON هذا". تصبح كل محادثة حالة اختبار تحلل ما إذا كان الوكلاء قد قدموا ادعاءات تتناقض مع سجلات النظام.
هذا يلتقط الأنماط التي تفوتها الاختبارات الاصطناعية. المستخدمون الحقيقيون يخلقون ظروفًا تكشف الحالات الحدية. تكشف سجلات الإنتاج عن مكان هلوسة النماذج في ظل الاستخدام الفعلي.
استراتيجيتا تقييم
يستخدم كياشكو نهجين متكاملين لتقييم أنظمة الذكاء الاصطناعي.
يتعامل المقيمون القائمون على الكود مع التحقق الموضوعي. "المقيمون القائمون على الكود مثاليون عندما يكون تعريف الفشل موضوعيًا ويمكن التحقق منه بالقواعد. على سبيل المثال: تحليل البنية، والتحقق من صحة JSON أو بناء جملة SQL"، كما يوضح.
لكن بعض حالات الفشل تقاوم التصنيف الثنائي. هل كانت النبرة مناسبة؟ هل الملخص أمين؟ هل الاستجابة مفيدة؟ "يتم استخدام مقيمي LLM-as-Judge عندما يتضمن وضع الفشل تفسيرًا أو فروقًا دقيقة لا يمكن للكود التقاطها".
بالنسبة لنهج LLM-as-Judge، يعتمد كياشكو على LangGraph. لا يعمل أي من النهجين بمفرده. تستخدم الأطر الفعالة كليهما.
ما تفتقده تدريبات ضمان الجودة الكلاسيكية
يكافح مهندسو الجودة ذوو الخبرة عندما يختبرون أنظمة الذكاء الاصطناعي لأول مرة. الافتراضات التي جعلتهم فعالين لا تنتقل.
"في ضمان الجودة الكلاسيكي، نعرف بالضبط تنسيق استجابة النظام، ونعرف بالضبط تنسيق بيانات الإدخال والإخراج"، يوضح كياشكو. "في اختبار أنظمة الذكاء الاصطناعي، لا يوجد شيء من هذا القبيل". بيانات الإدخال هي موجه - والاختلافات في كيفية صياغة العملاء للطلبات لا نهائية.
هذا يتطلب مراقبة مستمرة. يسميها كياشكو "تحليل الأخطاء المستمر" - مراجعة منتظمة لكيفية استجابة الوكلاء للمستخدمين الفعليين، وتحديد المكان الذي يختلقون فيه المعلومات، وتحديث مجموعات الاختبار وفقًا لذلك.
يتفاقم التحدي مع حجم التعليمات. تتطلب أنظمة الذكاء الاصطناعي موجهات واسعة تحدد السلوك والقيود. يمكن لكل تعليمة أن تتفاعل بشكل غير متوقع مع الآخرين. "إحدى مشاكل أنظمة الذكاء الاصطناعي هي العدد الهائل من التعليمات التي تحتاج إلى تحديث واختبار مستمرين"، كما يشير.
فجوة المعرفة كبيرة. يفتقر معظم المهندسين إلى فهم واضح للمقاييس المناسبة، أو إعداد مجموعة البيانات الفعالة، أو الأساليب الموثوقة للتحقق من المخرجات التي تتغير مع كل تشغيل. "صنع وكيل ذكاء اصطناعي ليس صعبًا"، يلاحظ كياشكو. "أتمتة اختبار هذا الوكيل هو التحدي الرئيسي. من ملاحظاتي وخبرتي، يتم قضاء وقت أكثر في اختبار وتحسين أنظمة الذكاء الاصطناعي من إنشائها".
إصدارات أسبوعية موثوقة
تؤدي الهلوسة إلى تآكل الثقة بشكل أسرع من الأخطاء. الميزة المعطلة تحبط المستخدمين. وكيل يقدم بثقة معلومات خاطئة يدمر المصداقية.
تتيح منهجية اختبار كياشكو إصدارات أسبوعية موثوقة. يلتقط التحقق التلقائي الانحدارات قبل النشر. الأنظمة المدربة والمختبرة ببيانات حقيقية تتعامل مع معظم طلبات العملاء بشكل صحيح.
يدفع التكرار الأسبوعي الميزة التنافسية. تتحسن أنظمة الذكاء الاصطناعي من خلال إضافة القدرات، وتحسين الاستجابات، وتوسيع المجالات.
لماذا هذا مهم لهندسة الجودة
الشركات التي تدمج الذكاء الاصطناعي تنمو يوميًا. "رأى العالم بالفعل فوائد استخدام الذكاء الاصطناعي، لذا لا عودة إلى الوراء"، يجادل كياشكو. يتسارع اعتماد الذكاء الاصطناعي عبر الصناعات - المزيد من الشركات الناشئة تطلق، والمزيد من المؤسسات تدمج الذكاء في المنتجات الأساسية.
إذا قام المهندسون ببناء أنظمة الذكاء الاصطناعي، فيجب عليهم فهم كيفية اختبارها. "حتى اليوم، نحتاج إلى فهم كيفية عمل LLMs، وكيفية بناء وكلاء الذكاء الاصطناعي، وكيفية اختبار هؤلاء الوكلاء، وكيفية أتمتة هذه الفحوصات".
أصبحت هندسة الموجه إلزامية لمهندسي الجودة. يتبع اختبار البيانات والتحقق من البيانات الديناميكي نفس المسار. "يجب أن تكون هذه بالفعل المهارات الأساسية لمهندسي الاختبار".
الأنماط التي يراها كياشكو عبر الصناعة تؤكد هذا التحول. من خلال عمله في مراجعة الأوراق الفنية حول تقييم الذكاء الاصطناعي وتقييم هندسات الشركات الناشئة في المنتديات الفنية، تظهر نفس المشكلات بشكل متكرر: الفرق في كل مكان تواجه مشاكل متطابقة. تحديات التحقق التي حلها في الإنتاج منذ سنوات أصبحت الآن مخاوف عالمية مع توسع نشر الذكاء الاصطناعي.
بنية تحتية للاختبار قابلة للتوسع
تتناول منهجية كياشكو مبادئ التقييم، وتقييم المحادثات متعددة المنعطفات، ومقاييس أوضاع الفشل المختلفة.
المفهوم الأساسي: الاختبار المتنوع. يلتقط التحقق على مستوى الكود الأخطاء الهيكلية. يتيح تقييم LLM-as-Judge تقييم فعالية ودقة نظام الذكاء الاصطناعي اعتمادًا على إصدار LLM المستخدم. يحدد التحليل اليدوي للأخطاء الأنماط. يتحقق اختبار RAG من أن الوكلاء يستخدمون السياق المقدم بدلاً من اختراع التفاصيل.
"الإطار الذي أصفه يستند إلى مفهوم نهج متنوع لاختبار أنظمة الذكاء الاصطناعي. نحن نستخدم التغطية على مستوى الكود، ومقيمي LLM-as-Judge، والتحليل اليدوي للأخطاء، وتقييم الجيل المعزز بالاسترجاع". أساليب التحقق المتعددة التي تعمل معًا تلتقط أنواعًا مختلفة من الهلوسة التي تفوتها الأساليب الفردية.
ما يأتي بعد ذلك
يحدد المجال أفضل الممارسات في الوقت الفعلي من خلال فشل الإنتاج والتحسين التكراري. المزيد من الشركات تنشر الذكاء الاصطناعي التوليدي. المزيد من النماذج تتخذ قرارات مستقلة. تصبح الأنظمة أكثر قدرة، مما يعني أن الهلوسة تصبح أكثر معقولية.
لكن الاختبار المنهجي يلتقط الاختلاقات قبل أن يواجهها المستخدمون. الاختبار للهلوسة ليس متعلقًا بالكمال - ستكون للنماذج دائمًا حالات حدية حيث تختلق. يتعلق الأمر بالتقاط الاختلاقات بشكل منهجي ومنعها من الوصول إلى الإنتاج.
التقنيات تعمل عند تطبيقها بشكل صحيح. ما هو مفقود هو الفهم الواسع لكيفية تنفيذها في بيئات الإنتاج حيث الموثوقية مهمة.
دميترو كياشكو هو مطور برامج في الاختبار متخصص في اختبار أنظمة الذكاء الاصطناعي، مع خبرة في بناء أطر اختبار للذكاء الاصطناعي المحادثاتي والوكلاء المستقلين. يفحص عمله تحديات الموثوقية والتحقق في أنظمة الذكاء الاصطناعي متعددة الوسائط.


