Ray 2.55 تحمل خطا را برای استقرار مدلهای هوش مصنوعی در مقیاس بزرگ اضافه میکند
Joerg Hiller 1405/01/13 18:35
بهروزرسانی Ray Serve LLM از Anyscale تحمل خطای گروه DP را برای استقرارهای vLLM WideEP فعال میکند و خطر خرابی را برای سیستمهای استنتاج هوش مصنوعی توزیع شده کاهش میدهد.
Anyscale یک بهروزرسانی مهم برای فریمورک Ray Serve LLM خود منتشر کرده است که یک چالش عملیاتی حیاتی را برای سازمانهایی که بارهای کاری استنتاج هوش مصنوعی در مقیاس بزرگ را اجرا میکنند، برطرف میکند. Ray 2.55 تحمل خطای گروه موازی داده (DP) را برای استقرارهای موازیسازی تخصصی گسترده vLLM معرفی میکند—ویژگیای که از خرابیهای تک GPU جلوگیری میکند تا کل خوشههای سرویسدهی مدل را از کار بیندازند.
این بهروزرسانی یک نقطه دردناک خاص در سرویسدهی مدلهای ترکیب تخصصها (MoE) را هدف قرار میدهد. برخلاف استقرارهای مدل سنتی که در آن هر نسخه به طور مستقل عمل میکند، معماریهای MoE مانند DeepSeek-V3 لایههای متخصص را در گروههایی از GPUها که باید به صورت جمعی کار کنند، تقسیم میکنند. زمانی که یک GPU در این پیکربندیها خراب میشود، کل گروه—که احتمالاً 16 تا 128 GPU را شامل میشود—غیرعملیاتی میشود.
مشکل فنی
مدلهای MoE شبکههای عصبی تخصصی "متخصص" را در چندین GPU توزیع میکنند. DeepSeek-V3، برای مثال، حاوی 256 متخصص در هر لایه است اما فقط 8 مورد را در هر توکن فعال میکند. توکنها به هر GPUای که متخصصان مورد نیاز را در اختیار دارد از طریق عملیاتهای ارسال و ترکیب که نیاز دارند همه رتبههای شرکتکننده سالم باشند، هدایت میشوند.
قبلاً، یک خرابی رتبه واحد این عملیاتهای جمعی را میشکست. درخواستها به نسخههای بازمانده در گروه آسیبدیده هدایت میشدند، اما هر درخواست با شکست مواجه میشد. بازیابی نیاز به راهاندازی مجدد کل سیستم داشت.
چگونه Ray آن را حل میکند
Ray Serve LLM اکنون با هر گروه DP را به عنوان یک واحد اتمی از طریق زمانبندی گروهی برخورد میکند. زمانی که یک رتبه خراب میشود، سیستم کل گروه را ناسالم علامتگذاری میکند، مسیریابی ترافیک به آن را متوقف میکند، گروه خراب را از بین میبرد و آن را به عنوان یک واحد بازسازی میکند. سایر گروههای سالم در طول این فرایند به سرویسدهی درخواستها ادامه میدهند.
این ویژگی به طور پیشفرض در Ray 2.55 فعال شده است. استقرارهای DP موجود نیازی به تغییرات کد ندارند—فریمورک بررسیهای سلامت سطح گروه، زمانبندی و بازیابی را به طور خودکار مدیریت میکند.
مقیاسپذیری خودکار نیز این مرزها را رعایت میکند. عملیاتهای افزایش و کاهش مقیاس به جای نسخههای فردی، در افزایشهای به اندازه گروه اتفاق میافتند و از ایجاد گروههای جزئی که نمیتوانند ترافیک را سرویسدهی کنند، جلوگیری میکنند.
پیامدهای عملیاتی
این بهروزرسانی یک ملاحظه طراحی مهم ایجاد میکند: عرض گروه در مقابل تعداد گروهها. طبق معیارهای vLLM که توسط Anyscale ارجاع داده شده است، توان عملیاتی به ازای هر GPU نسبتاً پایدار در اندازههای موازی متخصص 32، 72 و 96 باقی میماند. این بدان معناست که اپراتورها میتوانند به سمت گروههای کوچکتر تنظیم کنند بدون اینکه کارایی را قربانی کنند—و گروههای کوچکتر به معنای شعاع انفجار کوچکتر زمانی که خرابی رخ میدهد، است.
Anyscale خاطرنشان میکند این انعطافپذیری سطح هماهنگسازی، کار انعطافپذیری سطح موتور را که در جامعه vLLM اتفاق میافتد، تکمیل میکند. RFC موازیسازی تخصصی انعطافپذیر vLLM به این میپردازد که چگونه زمان اجرا میتواند توپولوژی را به صورت پویا در یک گروه تنظیم کند، در حالی که Ray Serve LLM مدیریت میکند که کدام گروهها وجود دارند و ترافیک دریافت میکنند.
برای سازمانهایی که مدلهای سبک DeepSeek را در مقیاس بزرگ مستقر میکنند، مزیت عملی ساده است: خرابیهای GPU به حوادث محلی تبدیل میشوند نه قطعیهای سراسری سیستم. نمونههای کد و مراحل بازتولید در مخزن GitHub Anyscale در دسترس هستند.
منبع تصویر: Shutterstock- ray
- vllm
- زیرساخت هوش مصنوعی
- یادگیری ماشین
- رایانش توزیع شده







