NVIDIA NeMo RL এন্ড-টু-এন্ড FP8 প্রিসিশন ট্রেনিং সহ ৪৮% গতি বৃদ্ধি অর্জন করেছে

জেসি এ এলিস এপ্রিল ২০, ২০২৬ ২৩:৪১

NVIDIA-এর রিইনফোর্সমেন্ট লার্নিং-এর জন্য নতুন FP8 রেসিপি BF16 নির্ভুলতার সাথে মিল রেখে ৪৮% দ্রুত ট্রেনিং প্রদান করে, AI অবকাঠামো খরচ উল্লেখযোগ্যভাবে কমায়।

NVIDIA NeMo RL এন্ড-টু-এন্ড FP8 প্রিসিশন ট্রেনিং সহ ৪৮% গতি বৃদ্ধি অর্জন করেছে

NVIDIA রিইনফোর্সমেন্ট লার্নিং-এর জন্য একটি ব্যাপক FP8 প্রিসিশন রেসিপি প্রকাশ করেছে যা ঐতিহ্যবাহী BF16 পদ্ধতির সাথে নির্ভুলতা সমতা বজায় রেখে ৪৮% পর্যন্ত দ্রুত ট্রেনিং থ্রুপুট প্রদান করে—AI অবকাঠামো খরচ এবং GPU কম্পিউট অর্থনীতির জন্য উল্লেখযোগ্য প্রভাব সহ একটি উন্নয়ন।

NVIDIA-এর গুয়ুয়ে হুয়াং-এর একটি প্রযুক্তিগত ব্লগ পোস্টে বিস্তারিত এই কৌশলটি RL ট্রেনিং-এর সবচেয়ে জটিল সমস্যাগুলির একটি সমাধান করে: পৃথক ইঞ্জিনে বিভিন্ন প্রিসিশন লেভেল ব্যবহার করার সময় জেনারেশন এবং ট্রেনিং পর্যায়ের মধ্যে সংখ্যাগত অমিল।

প্রযুক্তিগত অগ্রগতি

ঐতিহ্যবাহী RL পাইপলাইন রোলআউটের জন্য vLLM এবং ট্রেনিং-এর জন্য Megatron Core ব্যবহার করে—প্রতিটিতে অনন্য CUDA কার্নেল রয়েছে যা ক্রমবর্ধমান সংখ্যাগত পার্থক্য তৈরি করে। এই অসঙ্গতিগুলি নিম্ন প্রিসিশন লেভেলে বৃদ্ধি পায়, ঐতিহাসিকভাবে FP8 গ্রহণকে সীমিত করে।

NVIDIA-এর সমাধান? প্রিসিশন লেভেল মিশ্রিত করার পরিবর্তে জেনারেশন এবং ট্রেনিং উভয় ক্ষেত্রেই সামঞ্জস্যপূর্ণভাবে FP8 প্রয়োগ করুন। Llama 3.1 8B Instruct-এ পরীক্ষা করে দেখা গেছে এন্ড-টু-এন্ড FP8-এর সাথে ভ্যালিডেশন নির্ভুলতা ০.৬১৩ এবং BF16-এর জন্য ০.৬১৬—কার্যকরভাবে ব্যবধান বন্ধ করে। এদিকে, শুধুমাত্র জেনারেশনের জন্য FP8 ব্যবহার করলে নির্ভুলতা ০.৫৮৬-এ নেমে আসে।

রেসিপিটি ওজনের জন্য ১২৮x১২৮ গ্র্যানুলারিটি এবং অ্যাক্টিভেশনের জন্য ১x১২৮ সহ ব্লক-ওয়াইজ কোয়ান্টাইজড FP8 (E4M3 ফর্ম্যাট) ব্যবহার করে। লিনিয়ার লেয়ারগুলি BF16-এর তুলনায় ২x তাত্ত্বিক পিক থ্রুপুটে FP8 ম্যাথ চালায়, যখন অ্যাটেনশন, নরমালাইজেশন এবং নন-লিনিয়ার ফাংশনগুলি BF16-এ থাকে।

বাস্তব-বিশ্ব পারফরম্যান্স লাভ

শুধুমাত্র লিনিয়ার লেয়ারের জন্য, FP8 রেসিপি ধারাবাহিক ১৫-২৫% থ্রুপুট উন্নতি প্রদান করে। তাত্ত্বিক ২x গতি বৃদ্ধি এবং প্রকৃত লাভের মধ্যে ব্যবধান BF16-এ থাকা অ্যাটেনশন লেয়ার এবং কোয়ান্টাইজেশন কার্নেল ওভারহেড থেকে আসে।

KV ক্যাশ এবং অ্যাটেনশন অপারেশনে FP8 সম্প্রসারণ করলে BF16 বেসলাইনের তুলনায় মোট গতি বৃদ্ধি প্রায় ৪৮%-এ পৌঁছায়। সমস্যা: RL-এর ক্রমাগত আপডেট হওয়া পলিসি ওজনগুলি প্রতিটি ট্রেনিং ধাপের পরে কোয়ান্টাইজেশন স্কেলের ডায়নামিক পুনঃক্যালিব্রেশন প্রয়োজন। NVIDIA-এর পদ্ধতি এই পুনঃক্যালিব্রেশনের জন্য প্রায় ২-৩% ওভারহেড যোগ করে—উল্লেখযোগ্য ত্বরণের জন্য একটি সামান্য খরচ।

Qwen3-30B (একটি মিক্সচার-অফ-এক্সপার্টস মডেল) এ পরীক্ষা করে FP8 এবং BF16 কনফিগারেশনের মধ্যে মিলিত নির্ভুলতা কার্ভ দেখানো হয়েছে, যা পরামর্শ দেয় যে কৌশলটি আর্কিটেকচার জুড়ে স্কেল করে।

AI অর্থনীতির জন্য এটি কেন গুরুত্বপূর্ণ

উন্নত AI সহায়কদের পিছনের মতো যুক্তি-সক্ষম মডেলগুলির জন্য RL ট্রেনিং বিশাল কম্পিউট প্রয়োজন। ৪৮% গতি বৃদ্ধি সরাসরি এই সিস্টেমগুলি ট্রেনিং করা সংস্থাগুলির জন্য হ্রাসকৃত GPU-ঘন্টা এবং কম বিদ্যুৎ বিলে অনুবাদ করে।

নির্ভুলতা সংরক্ষণ সক্ষম করে এমন গুরুত্ব স্যাম্পলিং কৌশল সমানভাবে মূল্যবান প্রমাণিত হতে পারে। প্রতি-টোকেন ভিত্তিতে জেনারেশন এবং ট্রেনিং মডেলের মধ্যে ডিস্ট্রিবিউশন অমিল সংশোধন করে, এটি মডেল গুণমান ত্যাগ না করে আক্রমণাত্মক প্রিসিশন হ্রাস অনুমোদন করে।

সম্পূর্ণ বাস্তবায়ন NVIDIA-এর ওপেন-সোর্স NeMo RL লাইব্রেরিতে উপলব্ধ, Llama 3.1 8B এবং Moonlight 16B মডেলগুলির জন্য প্রি-কনফিগার্ড রেসিপি সহ। উন্নত ব্যবহারকারীরা পদ্ধতিটি ফাইন-টিউন করতে পারেন—নির্দিষ্ট ট্রান্সফরমার লেয়ার BF16-এ রাখা বা অতিরিক্ত অপ্টিমাইজেশনের জন্য পাওয়ার-অফ-২ স্কেলিং ফ্যাক্টরে স্যুইচ করা।

মডেল জটিলতার পাশাপাশি কম্পিউট খরচ বৃদ্ধি দেখছে এমন AI অবকাঠামো অপারেটরদের জন্য, এটি একটি অর্থবহ দক্ষতা লিভার প্রতিনিধিত্ব করে যা হার্ডওয়্যার আপগ্রেড প্রয়োজন করে না—শুধু বিদ্যমান H100 ক্ষমতার স্মার্ট ব্যবহার।

চিত্রের উৎস: Shutterstock