xAI প্রতিযোগীদের তুলনায় ৬০% কম মূল্যে Grok Speech API লঞ্চ করেছে
Zach Anderson ১৮ এপ্রিল, ২০২৬ ০০:৫৩
Elon Musk-এর xAI প্রতি ঘণ্টায় $০.১০ মূল্যে Grok Speech to Text এবং Text to Speech API প্রকাশ করেছে, যা এন্টারপ্রাইজ ট্রান্সক্রিপশন বেঞ্চমার্কে সর্বনিম্ন ত্রুটির হার দাবি করছে।
Elon Musk-এর xAI ১৭ এপ্রিল দুটি স্বতন্ত্র অডিও API প্রকাশ করেছে, যা Grok-এর স্পিচ প্রযুক্তিকে আক্রমণাত্মক মূল্যে ElevenLabs, Deepgram এবং AssemblyAI-এর সরাসরি প্রতিযোগী হিসেবে অবস্থান করছে।
Grok Speech to Text API ব্যাচ প্রসেসিংয়ের জন্য প্রতি ঘণ্টায় $০.১০ এবং রিয়েল-টাইম স্ট্রিমিংয়ের জন্য প্রতি ঘণ্টায় $০.২০ চার্জ করে। Text to Speech প্রতি মিলিয়ন অক্ষরে $৪.২০ মূল্যে পাওয়া যায়। উভয়ই Tesla গাড়ি এবং Starlink গ্রাহক সহায়তা চালিত একই অবকাঠামো ব্যবহার করে।
যাচাইযোগ্য বেঞ্চমার্ক দাবি
xAI-এর প্রকাশিত শব্দ ত্রুটির হার একটি আকর্ষণীয় গল্প বলে। ফোন কল এন্টিটি চিনতে—নাম, অ্যাকাউন্ট নম্বর, তারিখ—Grok STT ৫.০% ত্রুটির হার দাবি করে যেখানে ElevenLabs ১২.০%, Deepgram ১৩.৫% এবং AssemblyAI ২১.৩%। উৎপাদনে এটি টিকে থাকলে এটি একটি উল্লেখযোগ্য ব্যবধান।
কোম্পানিটি একটি জটিল পরীক্ষার ক্ষেত্রে এটি প্রদর্শন করেছে: মর্টগেজ বিবরণের পাশাপাশি "Anghared Llewelyn Bowen" এবং "Oisin MacGiolla Phadraig"-এর মতো ওয়েলশ নাম ট্রান্সক্রাইব করা। Grok শূন্য ত্রুটির সাথে এটি নিখুঁতভাবে করেছে। প্রতিযোগী মডেলগুলো উচ্চারণে হোঁচট খেয়েছে এবং তারিখগুলো অসামঞ্জস্যপূর্ণভাবে ফরম্যাট করেছে।
ভিডিও এবং পডকাস্ট ট্রান্সক্রিপশনে আরও কঠিন প্রতিযোগিতা দেখা যায়—Grok এবং ElevenLabs ২.৪% ত্রুটির হারে সমান, যেখানে Deepgram এবং AssemblyAI যথাক্রমে ৩.০% এবং ৩.২% এ সামান্য পিছিয়ে।
ডেভেলপারদের জন্য প্রযুক্তিগত বৈশিষ্ট্য
কাঁচা ট্রান্সক্রিপশনের বাইরে, xAI এমন বৈশিষ্ট্য তৈরি করেছে যা এন্টারপ্রাইজ গ্রাহকদের প্রকৃতপক্ষে প্রয়োজন: শব্দ-স্তরের টাইমস্ট্যাম্প, একাধিক অডিও চ্যানেলে স্পিকার ডায়ারাইজেশন এবং নিরবচ্ছিন্ন স্যুইচিং সহ ২৫+ ভাষার সমর্থন।
Inverse Text Normalization বৈশিষ্ট্য স্বয়ংক্রিয়ভাবে উচ্চারিত সংখ্যা, তারিখ এবং মুদ্রাকে সঠিক ফরম্যাটে রূপান্তরিত করে। "Four one four five five five one two three four" একটি ফোন নম্বর হয়ে যায়। "Six ninety-nine" $৬.৯৯ হয়ে যায়। ছোট বিবরণ, কিন্তু এটি পোস্ট-প্রসেসিং ঝামেলা দূর করে।
Text to Speech-এ প্রসোডি নিয়ন্ত্রণের জন্য ইনলাইন ট্যাগ রয়েছে—ফিসফিসানি, হাসি, দীর্ঘশ্বাস, জোর, গতির সমন্বয়। ডেভেলপাররা জটিল অডিও মার্কআপের সাথে লড়াই না করে আবেগপূর্ণ সূক্ষ্মতা যুক্ত করতে পারে।
কৌশলগত প্রেক্ষাপট
এই লঞ্চ মার্চ ২০২৫-এ xAI-এর X Corp অধিগ্রহণের পরে এসেছে এবং কোম্পানি তার অবকাঠামো অংশীদারিত্ব সম্প্রসারিত করছে। API ঘোষণার মাত্র দুই দিন আগে, রিপোর্ট প্রকাশিত হয়েছিল যে xAI AI-চালিত কোডিং স্টার্টআপ Cursor-কে কম্পিউটিং শক্তি সরবরাহ করার পরিকল্পনা করছে।
Colossus সুপারকম্পিউটার, যা ডিসেম্বর ২০২৪ থেকে চালু, ব্যাকএন্ড শক্তি প্রদান করে। xAI একাধিক ক্ষেত্রে সেই ক্ষমতা নগদীকরণ করছে বলে মনে হচ্ছে—এন্টারপ্রাইজ AI, ডেভেলপার টুলস এবং এখন ভয়েস API।
ভয়েস এজেন্ট বা ট্রান্সক্রিপশন টুল তৈরি করা ডেভেলপারদের জন্য, মূল্য প্রতিষ্ঠিত খেলোয়াড়দের যথেষ্ট পরিমাণে কম করে। Grok-এর নির্ভুলতার দাবিগুলো বড় পরিসরে বাস্তব-বিশ্ব স্থাপনায় টিকে থাকে কিনা তা খোলা প্রশ্ন রয়ে যায়। যারা এটি পরীক্ষা করতে প্রস্তুত তাদের জন্য ডকুমেন্টেশন এবং রেট সীমা xAI-এর API কনসোলের মাধ্যমে উপলব্ধ।
চিত্রের উৎস: Shutterstock- xai
- grok
- ai apis
- স্পিচ রিকগনিশন
- elon musk








