ভাষা মডেলগুলো শুধু ভুল করে না—তারা সম্পূর্ণ আত্মবিশ্বাসের সাথে বাস্তবতা তৈরি করে। একটি AI এজেন্ট দাবি করতে পারে যে এটি ডাটাবেস রেকর্ড তৈরি করেছে যা আসলে বিদ্যমান নেই,ভাষা মডেলগুলো শুধু ভুল করে না—তারা সম্পূর্ণ আত্মবিশ্বাসের সাথে বাস্তবতা তৈরি করে। একটি AI এজেন্ট দাবি করতে পারে যে এটি ডাটাবেস রেকর্ড তৈরি করেছে যা আসলে বিদ্যমান নেই,

এলএলএম আচরণ অডিট করা: আমরা কি হ্যালুসিনেশনের জন্য পরীক্ষা করতে পারি? Dmytro Kyiashko, AI-Oriented Software Developer in Test-এর বিশেষজ্ঞ অন্তর্দৃষ্টি

2025/12/23 01:31

ভাষা মডেলগুলি শুধু ভুল করে না—তারা সম্পূর্ণ আত্মবিশ্বাসের সাথে বাস্তবতা বানিয়ে ফেলে। একটি AI এজেন্ট দাবি করতে পারে যে এটি ডাটাবেস রেকর্ড তৈরি করেছে যা আসলে নেই, অথবা জোর দিতে পারে যে এটি এমন কাজ সম্পাদন করেছে যা এটি কখনও চেষ্টাও করেনি। প্রোডাকশনে এই সিস্টেমগুলি স্থাপনকারী দলগুলির জন্য, এই পার্থক্যটি নির্ধারণ করে আপনি কীভাবে সমস্যাটি সমাধান করবেন।

দিমিত্রো কিয়াশকো AI সিস্টেম পরীক্ষায় বিশেষজ্ঞ। তার কাজ একটি প্রশ্নের উপর কেন্দ্রীভূত: মডেল কখন মিথ্যা বলে তা আপনি পদ্ধতিগতভাবে কীভাবে ধরবেন?

আত্মবিশ্বাসী বাজে কথা পরীক্ষা করার সমস্যা

ঐতিহ্যবাহী সফটওয়্যার পূর্বাভাসযোগ্যভাবে ব্যর্থ হয়। একটি ভাঙা ফাংশন একটি ত্রুটি ফেরত দেয়। একটি ভুল কনফিগার করা API একটি নির্ধারণবাদী ব্যর্থতা সংকেত প্রদান করে—সাধারণত একটি স্ট্যান্ডার্ড HTTP স্ট্যাটাস কোড এবং একটি পাঠযোগ্য ত্রুটি বার্তা যা ব্যাখ্যা করে কী ভুল হয়েছে।

ভাষা মডেলগুলি ভিন্নভাবে ভাঙে। তারা এমন কাজ সম্পন্ন করার রিপোর্ট করবে যা তারা কখনও শুরু করেনি, এমন ডাটাবেস থেকে তথ্য পুনরুদ্ধার করবে যা তারা কখনও কোয়েরি করেনি, এবং এমন কাজের বর্ণনা দেবে যা শুধুমাত্র তাদের প্রশিক্ষণ ডেটায় বিদ্যমান। প্রতিক্রিয়াগুলি সঠিক দেখায়। বিষয়বস্তু বানোয়াট।

"প্রতিটি AI এজেন্ট ইঞ্জিনিয়ারদের দ্বারা প্রস্তুত নির্দেশাবলী অনুসারে কাজ করে," কিয়াশকো ব্যাখ্যা করেন। "আমরা ঠিক জানি আমাদের এজেন্ট কী করতে পারে এবং কী করতে পারে না।" এই জ্ঞান হ্যালুসিনেশন এবং ত্রুটির মধ্যে পার্থক্য করার ভিত্তি হয়ে ওঠে।

যদি একটি ডাটাবেস কোয়েরি করার জন্য প্রশিক্ষিত একটি এজেন্ট নীরবে ব্যর্থ হয়, তাহলে সেটি একটি বাগ। কিন্তু যদি এটি ডাটাবেস স্পর্শ না করেই বিস্তারিত কোয়েরি ফলাফল ফেরত দেয়? সেটি একটি হ্যালুসিনেশন। মডেলটি প্রশিক্ষণ প্যাটার্নের উপর ভিত্তি করে যুক্তিসঙ্গত আউটপুট আবিষ্কার করেছে।

প্রকৃত সত্যের বিপরীতে যাচাইকরণ

কিয়াশকোর পদ্ধতি প্রকৃত সিস্টেম অবস্থার বিপরীতে যাচাইকরণের উপর কেন্দ্রীভূত। যখন একটি এজেন্ট দাবি করে যে এটি রেকর্ড তৈরি করেছে, তার পরীক্ষাগুলি পরীক্ষা করে সেই রেকর্ডগুলি আছে কিনা। যদি সিস্টেম এটির বিরোধিতা করে তবে এজেন্টের প্রতিক্রিয়া কোন ব্যাপার নয়।

"আমি সাধারণত বিভিন্ন ধরনের নেগেটিভ টেস্ট ব্যবহার করি—ইউনিট এবং ইন্টিগ্রেশন উভয়ই—LLM হ্যালুসিনেশন পরীক্ষা করার জন্য," তিনি উল্লেখ করেন। এই পরীক্ষাগুলি ইচ্ছাকৃতভাবে এমন কাজের অনুরোধ করে যা করার অনুমতি এজেন্টের নেই, তারপর যাচাই করে যে এজেন্ট মিথ্যাভাবে সাফল্যের নিশ্চিতকরণ দেয় না এবং সিস্টেম অবস্থা অপরিবর্তিত থাকে।

একটি কৌশল পরিচিত সীমাবদ্ধতার বিরুদ্ধে পরীক্ষা করে। ডাটাবেস রাইট অনুমতি ছাড়া একটি এজেন্টকে রেকর্ড তৈরি করতে প্রম্পট করা হয়। পরীক্ষাটি যাচাই করে যে কোনও অননুমোদিত ডেটা উপস্থিত হয়নি এবং প্রতিক্রিয়া সাফল্যের দাবি করে না।

সবচেয়ে কার্যকর পদ্ধতি প্রোডাকশন ডেটা ব্যবহার করে। "আমি গ্রাহক কথোপকথনের ইতিহাস ব্যবহার করি, সবকিছু JSON ফরম্যাটে রূপান্তর করি, এবং এই JSON ফাইল ব্যবহার করে আমার পরীক্ষা চালাই।" প্রতিটি কথোপকথন একটি পরীক্ষা কেসে পরিণত হয় যা বিশ্লেষণ করে এজেন্টরা সিস্টেম লগের বিরোধী দাবি করেছে কিনা।

এটি এমন প্যাটার্ন ধরে যা সিন্থেটিক পরীক্ষা মিস করে। প্রকৃত ব্যবহারকারীরা এমন অবস্থা তৈরি করে যা এজ কেস প্রকাশ করে। প্রোডাকশন লগ প্রকাশ করে যে মডেলগুলি প্রকৃত ব্যবহারের অধীনে কোথায় হ্যালুসিনেট করে।

দুটি মূল্যায়ন কৌশল

কিয়াশকো AI সিস্টেম মূল্যায়নের জন্য দুটি পরিপূরক পদ্ধতি ব্যবহার করেন।

কোড-ভিত্তিক মূল্যায়নকারীরা বস্তুনিষ্ঠ যাচাইকরণ পরিচালনা করে। "কোড-ভিত্তিক মূল্যায়নকারীরা আদর্শ যখন ব্যর্থতার সংজ্ঞা বস্তুনিষ্ঠ এবং নিয়মের সাথে পরীক্ষা করা যায়। উদাহরণস্বরূপ: পার্সিং স্ট্রাকচার, JSON বৈধতা বা SQL সিনট্যাক্স পরীক্ষা করা," তিনি ব্যাখ্যা করেন।

কিন্তু কিছু ব্যর্থতা বাইনারি শ্রেণিবিন্যাস প্রতিরোধ করে। টোন কি উপযুক্ত ছিল? সারাংশ কি বিশ্বস্ত? প্রতিক্রিয়া কি সহায়ক? "LLM-as-Judge মূল্যায়নকারী ব্যবহার করা হয় যখন ব্যর্থতার মোড ব্যাখ্যা বা সূক্ষ্মতা জড়িত থাকে যা কোড ক্যাপচার করতে পারে না।"

LLM-as-Judge পদ্ধতির জন্য, কিয়াশকো LangGraph-এর উপর নির্ভর করেন। কোন পদ্ধতিই একা কাজ করে না। কার্যকর ফ্রেমওয়ার্ক উভয়ই ব্যবহার করে।

ক্লাসিক QA প্রশিক্ষণ কী মিস করে

অভিজ্ঞ গুণমান ইঞ্জিনিয়াররা যখন প্রথমবার AI সিস্টেম পরীক্ষা করেন তখন সংগ্রাম করেন। যে অনুমানগুলি তাদের কার্যকর করেছে তা স্থানান্তরিত হয় না।

"ক্লাসিক QA-তে, আমরা সিস্টেমের প্রতিক্রিয়া ফরম্যাট ঠিক জানি, আমরা ইনপুট এবং আউটপুট ডেটার ফরম্যাট ঠিক জানি," কিয়াশকো ব্যাখ্যা করেন। "AI সিস্টেম পরীক্ষায়, এমন কিছু নেই।" ইনপুট ডেটা একটি প্রম্পট—এবং গ্রাহকরা অনুরোধগুলি কীভাবে বাক্যাংশ করে তার বৈচিত্র্য অসীম।

এটি ক্রমাগত পর্যবেক্ষণ দাবি করে। কিয়াশকো এটিকে "ক্রমাগত ত্রুটি বিশ্লেষণ" বলে—নিয়মিত পর্যালোচনা করে এজেন্টরা প্রকৃত ব্যবহারকারীদের কীভাবে প্রতিক্রিয়া জানায়, তারা কোথায় তথ্য বানায় তা চিহ্নিত করে এবং সেই অনুযায়ী পরীক্ষা স্যুট আপডেট করে।

নির্দেশের পরিমাণের সাথে চ্যালেঞ্জ জটিল হয়। AI সিস্টেমগুলির আচরণ এবং সীমাবদ্ধতা সংজ্ঞায়িত করে বিস্তৃত প্রম্পট প্রয়োজন। প্রতিটি নির্দেশ অন্যদের সাথে অপ্রত্যাশিতভাবে ইন্টারঅ্যাক্ট করতে পারে। "AI সিস্টেমগুলির সমস্যাগুলির মধ্যে একটি হল বিপুল সংখ্যক নির্দেশ যা ক্রমাগত আপডেট এবং পরীক্ষা করা প্রয়োজন," তিনি উল্লেখ করেন।

জ্ঞান ফাঁক উল্লেখযোগ্য। বেশিরভাগ ইঞ্জিনিয়ারদের উপযুক্ত মেট্রিক্স, কার্যকর ডেটাসেট প্রস্তুতি, বা প্রতিটি রানের সাথে পরিবর্তিত আউটপুট যাচাই করার জন্য নির্ভরযোগ্য পদ্ধতিগুলির স্পষ্ট বোঝার অভাব রয়েছে। "একটি AI এজেন্ট তৈরি করা কঠিন নয়," কিয়াশকো পর্যবেক্ষণ করেন। "সেই এজেন্টের পরীক্ষা স্বয়ংক্রিয় করা প্রধান চ্যালেঞ্জ। আমার পর্যবেক্ষণ এবং অভিজ্ঞতা থেকে, AI সিস্টেম তৈরি করার চেয়ে পরীক্ষা এবং অপ্টিমাইজ করতে বেশি সময় ব্যয় হয়।"

নির্ভরযোগ্য সাপ্তাহিক রিলিজ

হ্যালুসিনেশনগুলি বাগের চেয়ে দ্রুত বিশ্বাস নষ্ট করে। একটি ভাঙা বৈশিষ্ট্য ব্যবহারকারীদের হতাশ করে। মিথ্যা তথ্য প্রদান করে আত্মবিশ্বাসের সাথে একটি এজেন্ট বিশ্বাসযোগ্যতা ধ্বংস করে।

কিয়াশকোর পরীক্ষা পদ্ধতি নির্ভরযোগ্য সাপ্তাহিক রিলিজ সক্ষম করে। স্বয়ংক্রিয় যাচাইকরণ স্থাপনার আগে রিগ্রেশন ধরে। প্রকৃত ডেটার সাথে প্রশিক্ষিত এবং পরীক্ষিত সিস্টেমগুলি বেশিরভাগ গ্রাহক অনুরোধ সঠিকভাবে পরিচালনা করে।

সাপ্তাহিক পুনরাবৃত্তি প্রতিযোগিতামূলক সুবিধা চালিত করে। AI সিস্টেমগুলি সক্ষমতা যোগ করা, প্রতিক্রিয়া পরিমার্জন, ডোমেইন সম্প্রসারণের মাধ্যমে উন্নত হয়।

গুণমান ইঞ্জিনিয়ারিংয়ের জন্য এটি কেন গুরুত্বপূর্ণ

AI একীভূত করা কোম্পানিগুলি প্রতিদিন বৃদ্ধি পাচ্ছে। "বিশ্ব ইতিমধ্যে AI ব্যবহারের সুবিধা দেখেছে, তাই ফিরে যাওয়ার কোন উপায় নেই," কিয়াশকো তর্ক করেন। AI গ্রহণ শিল্প জুড়ে ত্বরান্বিত হচ্ছে—আরও স্টার্টআপ চালু হচ্ছে, আরও এন্টারপ্রাইজ মূল পণ্যগুলিতে বুদ্ধিমত্তা একীভূত করছে।

যদি ইঞ্জিনিয়াররা AI সিস্টেম তৈরি করেন, তাহলে তাদের অবশ্যই বুঝতে হবে কীভাবে সেগুলি পরীক্ষা করতে হয়। "এমনকি আজও, আমাদের বুঝতে হবে LLMগুলি কীভাবে কাজ করে, AI এজেন্টরা কীভাবে তৈরি হয়, এই এজেন্টদের কীভাবে পরীক্ষা করা হয় এবং কীভাবে এই চেকগুলি স্বয়ংক্রিয় করতে হয়।"

প্রম্পট ইঞ্জিনিয়ারিং গুণমান ইঞ্জিনিয়ারদের জন্য বাধ্যতামূলক হয়ে উঠছে। ডেটা পরীক্ষা এবং গতিশীল ডেটা যাচাইকরণ একই পথ অনুসরণ করে। "এগুলো ইতিমধ্যে টেস্ট ইঞ্জিনিয়ারদের প্রাথমিক দক্ষতা হওয়া উচিত।"

কিয়াশকো শিল্প জুড়ে যে প্যাটার্নগুলি দেখেন তা এই পরিবর্তন নিশ্চিত করে। AI মূল্যায়নের প্রযুক্তিগত কাগজপত্র পর্যালোচনা এবং প্রযুক্তিগত ফোরামে স্টার্টআপ আর্কিটেকচার মূল্যায়নের মাধ্যমে তার কাজের মাধ্যমে, একই সমস্যা বারবার প্রদর্শিত হয়: সর্বত্র দল অভিন্ন সমস্যার মুখোমুখি হয়। তিনি বছর আগে প্রোডাকশনে সমাধান করা যাচাইকরণ চ্যালেঞ্জগুলি এখন সার্বজনীন উদ্বেগে পরিণত হচ্ছে কারণ AI স্থাপনা স্কেল হচ্ছে।

স্কেলিং পরীক্ষা অবকাঠামো

কিয়াশকোর পদ্ধতি মূল্যায়ন নীতি, মাল্টি-টার্ন কথোপকথন মূল্যায়ন এবং বিভিন্ন ব্যর্থতা মোডের জন্য মেট্রিক্স সম্বোধন করে।

মূল ধারণা: বৈচিত্র্যময় পরীক্ষা। কোড-লেভেল যাচাইকরণ কাঠামোগত ত্রুটি ধরে। LLM-as-Judge মূল্যায়ন কোন LLM সংস্করণ ব্যবহার করা হচ্ছে তার উপর নির্ভর করে AI সিস্টেমের কার্যকারিতা এবং নির্ভুলতার মূল্যায়ন সক্ষম করে। ম্যানুয়াল ত্রুটি বিশ্লেষণ প্যাটার্ন চিহ্নিত করে। RAG পরীক্ষা যাচাই করে যে এজেন্টরা বিবরণ আবিষ্কার করার পরিবর্তে প্রদত্ত প্রসঙ্গ ব্যবহার করে।

"আমি যে ফ্রেমওয়ার্ক বর্ণনা করি তা AI সিস্টেম পরীক্ষার জন্য একটি বৈচিত্র্যময় পদ্ধতির ধারণার উপর ভিত্তি করে। আমরা কোড-লেভেল কভারেজ, LLM-as-Judge মূল্যায়নকারী, ম্যানুয়াল ত্রুটি বিশ্লেষণ এবং Retrieval-Augmented Generation মূল্যায়ন ব্যবহার করি।" একসাথে কাজ করা একাধিক যাচাইকরণ পদ্ধতি বিভিন্ন হ্যালুসিনেশন প্রকার ধরে যা একক পদ্ধতি মিস করে।

পরবর্তী কী আসবে

ক্ষেত্রটি প্রোডাকশন ব্যর্থতা এবং পুনরাবৃত্তিমূলক পরিমার্জনার মাধ্যমে রিয়েল টাইমে সর্বোত্তম অনুশীলন সংজ্ঞায়িত করে। আরও বেশি কোম্পানি জেনারেটিভ AI স্থাপন করছে। আরও মডেল স্বায়ত্তশাসিত সিদ্ধান্ত নিচ্ছে। সিস্টেমগুলি আরও সক্ষম হচ্ছে, যার অর্থ হ্যালুসিনেশনগুলি আরও যুক্তিসঙ্গত হয়ে উঠছে।

কিন্তু পদ্ধতিগত পরীক্ষা ব্যবহারকারীদের সম্মুখীন হওয়ার আগে বানোয়াট ধরে। হ্যালুসিনেশনের জন্য পরীক্ষা করা পূর্ণতার বিষয়ে নয়—মডেলগুলির সর্বদা এজ কেস থাকবে যেখানে তারা বানিয়ে ফেলে। এটি পদ্ধতিগতভাবে বানোয়াট ধরা এবং সেগুলি প্রোডাকশনে পৌঁছাতে বাধা দেওয়ার বিষয়ে।

সঠিকভাবে প্রয়োগ করা হলে কৌশলগুলি কাজ করে। যা অনুপস্থিত তা হল প্রোডাকশন পরিবেশে কীভাবে সেগুলি বাস্তবায়ন করতে হয় তার ব্যাপক বোঝাপড়া যেখানে নির্ভরযোগ্যতা গুরুত্বপূর্ণ।

দিমিত্রো কিয়াশকো একজন সফটওয়্যার ডেভেলপার ইন টেস্ট যিনি AI সিস্টেম পরীক্ষায় বিশেষজ্ঞ, কথোপকথন AI এবং স্বায়ত্তশাসিত এজেন্টদের জন্য টেস্ট ফ্রেমওয়ার্ক তৈরির অভিজ্ঞতা সহ। তার কাজ মাল্টিমোডাল AI সিস্টেমে নির্ভরযোগ্যতা এবং যাচাইকরণ চ্যালেঞ্জ পরীক্ষা করে।

মন্তব্য
মার্কেটের সুযোগ
Large Language Model লোগো
Large Language Model প্রাইস(LLM)
$0.0003348
$0.0003348$0.0003348
+0.45%
USD
Large Language Model (LLM) লাইভ প্রাইস চার্ট
ডিসক্লেইমার: এই সাইটে পুনঃপ্রকাশিত নিবন্ধগুলো সর্বসাধারণের জন্য উন্মুক্ত প্ল্যাটফর্ম থেকে সংগ্রহ করা হয়েছে এবং শুধুমাত্র তথ্যের উদ্দেশ্যে প্রদান করা হয়েছে। এগুলো আবশ্যিকভাবে MEXC-এর মতামতকে প্রতিফলিত করে না। সমস্ত অধিকার মূল লেখকদের কাছে সংরক্ষিত রয়েছে। আপনি যদি মনে করেন কোনো কনটেন্ট তৃতীয় পক্ষের অধিকার লঙ্ঘন করেছে, তাহলে অনুগ্রহ করে অপসারণের জন্য [email protected] এ যোগাযোগ করুন। MEXC কনটেন্টের সঠিকতা, সম্পূর্ণতা বা সময়োপযোগিতা সম্পর্কে কোনো গ্যারান্টি দেয় না এবং প্রদত্ত তথ্যের ভিত্তিতে নেওয়া কোনো পদক্ষেপের জন্য দায়ী নয়। এই কনটেন্ট কোনো আর্থিক, আইনগত বা অন্যান্য পেশাদার পরামর্শ নয় এবং এটি MEXC-এর সুপারিশ বা সমর্থন হিসেবে গণ্য করা উচিত নয়।

আপনি আরও পছন্দ করতে পারেন

CFTC এবং SEC চেয়ারম্যানরা ক্রিপ্টো নিয়ন্ত্রণের জন্য শক্তিশালী ড্রিম টিম গঠন করেছেন

CFTC এবং SEC চেয়ারম্যানরা ক্রিপ্টো নিয়ন্ত্রণের জন্য শক্তিশালী ড্রিম টিম গঠন করেছেন

হোয়াইট হাউস মূল মনোনয়নগুলো রূপ নেওয়ার সাথে সাথে ডিজিটাল সম্পদ নিয়ন্ত্রণে অগ্রগতির ইঙ্গিত দিচ্ছে বাইডেন প্রশাসন ক্রিপ্টো নিয়ন্ত্রণের দিকে তাদের পদ্ধতি এগিয়ে নিয়ে যাচ্ছে
শেয়ার করুন
Crypto Breaking News2025/12/23 02:28
যুক্তরাষ্ট্রের নিষেধাজ্ঞার কারণে রাশিয়ার ইউরাল অপরিশোধিত তেলের দাম প্রায় $34 প্রতি ব্যারেলে নেমে এসেছে

যুক্তরাষ্ট্রের নিষেধাজ্ঞার কারণে রাশিয়ার ইউরাল অপরিশোধিত তেলের দাম প্রায় $34 প্রতি ব্যারেলে নেমে এসেছে

রাশিয়ার প্রধান ইউরাল অপরিশোধিত তেল প্রায় $৩৪ প্রতি ব্যারেলে নেমে এসেছে, যা তেলের বাজারে একটি স্পষ্ট মূল্য সংকেত পাঠাচ্ছে যে মার্কিন নিষেধাজ্ঞা ক্ষতি করতে শুরু করেছে।
শেয়ার করুন
Cryptopolitan2025/12/23 02:20
যুক্তরাষ্ট্রের ক্রিপ্টো ফান্ড $952M হারায় যখন Clarity Act বিলম্ব আতঙ্ক সৃষ্টি করে – কিন্তু এই 2টি Alts টিকে থাকে

যুক্তরাষ্ট্রের ক্রিপ্টো ফান্ড $952M হারায় যখন Clarity Act বিলম্ব আতঙ্ক সৃষ্টি করে – কিন্তু এই 2টি Alts টিকে থাকে

যুক্তরাষ্ট্র-কেন্দ্রিক ডিজিটাল সম্পদ বিনিয়োগ তহবিল এক মাসে প্রথমবারের মতো সাপ্তাহিক উত্তোলন রেকর্ড করেছে, দীর্ঘ-বিলম্বিত CLARITY-এর সাথে সম্পর্কিত বিলম্বের পরে $৯৫২ মিলিয়ন হারিয়েছে
শেয়ার করুন
CryptoNews2025/12/23 02:09