সংক্ষেপে
- গুগল বলেছে যে এর TurboQuant অ্যালগরিদম ইনফারেন্সের সময় নির্ভুলতার কোনো ক্ষতি ছাড়াই একটি প্রধান AI মেমরি বাধা কমপক্ষে ছয়গুণ কমাতে পারে।
- পেপারটি প্রচারিত হওয়ার পর Micron, Western Digital এবং Seagate সহ মেমরি স্টক হ্রাস পেয়েছে।
- পদ্ধতিটি মডেল ওয়েটস নয়, ইনফারেন্স মেমরি কম্প্রেস করে এবং শুধুমাত্র গবেষণা বেঞ্চমার্কে পরীক্ষা করা হয়েছে।
Google Research বুধবার TurboQuant প্রকাশ করেছে, একটি কম্প্রেশন অ্যালগরিদম যা নির্ভুলতায় শূন্য ক্ষতি বজায় রেখে একটি প্রধান ইনফারেন্স-মেমরি বাধা কমপক্ষে 6x সংকুচিত করে।
পেপারটি ICLR 2026-এ উপস্থাপনার জন্য নির্ধারিত, এবং অনলাইনে প্রতিক্রিয়া তাৎক্ষণিক ছিল।
Cloudflare CEO Matthew Prince এটিকে গুগলের DeepSeek মুহূর্ত বলেছেন। একই দিনে Micron, Western Digital এবং Seagate সহ মেমরি স্টকের দাম হ্রাস পেয়েছে।
তাহলে কি এটি বাস্তব?
কোয়ান্টাইজেশন দক্ষতা নিজেই একটি বড় অর্জন। কিন্তু "শূন্য নির্ভুলতা ক্ষতি" প্রসঙ্গের প্রয়োজন।
TurboQuant KV ক্যাশকে টার্গেট করে—GPU মেমরির অংশ যা একটি কথোপকথনের সময় একটি ভাষা মডেলের মনে রাখার প্রয়োজন সবকিছু সংরক্ষণ করে।
যখন প্রসঙ্গ উইন্ডো মিলিয়ন টোকেনের দিকে বৃদ্ধি পায়, তখন সেই ক্যাশগুলি প্রতি সেশনে শত শত গিগাবাইটে ফুলে ওঠে। এটিই প্রকৃত বাধা। কম্পিউট পাওয়ার নয় বরং কাঁচা মেমরি।
ঐতিহ্যগত কম্প্রেশন পদ্ধতিগুলি সংখ্যা নিচে নামিয়ে সেই ক্যাশগুলি সংকুচিত করার চেষ্টা করে—উদাহরণস্বরূপ 32-বিট ফ্লোট থেকে 16, 8 থেকে 4-বিট ইন্টিজারে। এটি আরও ভালভাবে বোঝার জন্য, একটি চিত্রকে 4K থেকে full HD, 720p এবং তাই সংকুচিত করার কথা ভাবুন। সামগ্রিকভাবে এটি একই চিত্র বলা সহজ, কিন্তু 4K রেজোলিউশনে আরও বিস্তারিত রয়েছে।
সমস্যা: মডেলকে বোকা হওয়া থেকে বিরত রাখতে তাদের কম্প্রেসড ডেটার পাশাপাশি অতিরিক্ত "কোয়ান্টাইজেশন কনস্ট্যান্ট" সংরক্ষণ করতে হয়। সেই কনস্ট্যান্টগুলি প্রতি মানে 1 থেকে 2 বিট যোগ করে, লাভগুলি আংশিকভাবে ক্ষয় করে।
TurboQuant দাবি করে যে এটি সেই ওভারহেড সম্পূর্ণভাবে দূর করে।
এটি দুটি সাব-অ্যালগরিদমের মাধ্যমে এটি করে। PolarQuant ভেক্টরে দিক থেকে মাত্রা আলাদা করে, এবং QJL (Quantized Johnson-Lindenstrauss) অবশিষ্ট ক্ষুদ্র ত্রুটি নেয় এবং এটিকে একটি একক সাইন বিট, পজিটিভ বা নেগেটিভ, শূন্য সংরক্ষিত কনস্ট্যান্ট সহ হ্রাস করে।
ফলাফল, গুগল বলছে, ট্রান্সফরমার মডেল চালনা করে এমন অ্যাটেনশন গণনার জন্য একটি গাণিতিকভাবে নিরপেক্ষ অনুমানকারী।
Gemma এবং Mistral ব্যবহার করে বেঞ্চমার্কে, TurboQuant 4x কম্প্রেশনের অধীনে পূর্ণ-নির্ভুলতার পারফরম্যান্সের সাথে মিলেছে, যার মধ্যে 104,000 টোকেন পর্যন্ত নিডল-ইন-হেস্ট্যাক টাস্কে নিখুঁত পুনরুদ্ধার নির্ভুলতা রয়েছে।
কেন সেই বেঞ্চমার্কগুলি গুরুত্বপূর্ণ তার প্রসঙ্গে, মান ক্ষতি ছাড়াই একটি মডেলের ব্যবহারযোগ্য প্রসঙ্গ প্রসারিত করা LLM স্থাপনায় সবচেয়ে কঠিন সমস্যাগুলির মধ্যে একটি হয়েছে।
এখন, সূক্ষ্ম মুদ্রণ।
"শূন্য নির্ভুলতা ক্ষতি" ইনফারেন্সের সময় KV ক্যাশ কম্প্রেশনের ক্ষেত্রে প্রযোজ্য—মডেলের ওয়েটসের জন্য নয়। ওয়েটস কম্প্রেস করা সম্পূর্ণ ভিন্ন, কঠিন সমস্যা। TurboQuant সেগুলি স্পর্শ করে না।
এটি যা কম্প্রেস করে তা হল মিড-সেশন অ্যাটেনশন গণনা সংরক্ষণকারী অস্থায়ী মেমরি, যা আরও ক্ষমাশীল কারণ সেই ডেটা তাত্ত্বিকভাবে পুনর্গঠন করা যেতে পারে।
একটি পরিষ্কার বেঞ্চমার্ক এবং বিলিয়ন অনুরোধ পরিবেশনকারী একটি উৎপাদন সিস্টেমের মধ্যেও ব্যবধান রয়েছে। TurboQuant ওপেন-সোর্স মডেলগুলিতে পরীক্ষা করা হয়েছিল—Gemma, Mistral, Llama—গুগলের নিজস্ব Gemini স্ট্যাক বৃহৎ পরিসরে নয়।
DeepSeek-এর দক্ষতা লাভের বিপরীতে, যা শুরু থেকে গভীর স্থাপত্য সিদ্ধান্ত প্রয়োজন, TurboQuant কোনো পুনরায় প্রশিক্ষণ বা ফাইন-টিউনিং প্রয়োজন করে না এবং নগণ্য রানটাইম ওভারহেড দাবি করে। তত্ত্বে, এটি সরাসরি বিদ্যমান ইনফারেন্স পাইপলাইনে চলে যায়।
এটিই সেই অংশ যা মেমরি হার্ডওয়্যার সেক্টরকে ভীত করেছে—কারণ যদি এটি উৎপাদনে কাজ করে, তবে প্রতিটি প্রধান AI ল্যাব তাদের ইতিমধ্যে থাকা একই GPUতে আরও কম চলে।
পেপারটি ICLR 2026-এ যায়। যতক্ষণ না এটি উৎপাদনে চালু হয়, "শূন্য ক্ষতি" শিরোনাম ল্যাবে থাকে।
দৈনিক ডিব্রিফ নিউজলেটার
প্রতিদিন শুরু করুন এখনই শীর্ষ সংবাদ গল্প, প্লাস মূল বৈশিষ্ট্য, একটি পডকাস্ট, ভিডিও এবং আরও অনেক কিছু দিয়ে।
উৎস: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss


