Ray 2.55 تحمل خطا را برای استقرار مدل‌های هوش مصنوعی در مقیاس بزرگ اضافه می‌کند

Joerg Hiller 1405/01/13 18:35

به‌روزرسانی Ray Serve LLM از Anyscale تحمل خطای گروه DP را برای استقرارهای vLLM WideEP فعال می‌کند و خطر خرابی را برای سیستم‌های استنتاج هوش مصنوعی توزیع شده کاهش می‌دهد.

Ray 2.55 تحمل خطا را برای استقرار مدل‌های هوش مصنوعی در مقیاس بزرگ اضافه می‌کند

Anyscale یک به‌روزرسانی مهم برای فریمورک Ray Serve LLM خود منتشر کرده است که یک چالش عملیاتی حیاتی را برای سازمان‌هایی که بارهای کاری استنتاج هوش مصنوعی در مقیاس بزرگ را اجرا می‌کنند، برطرف می‌کند. Ray 2.55 تحمل خطای گروه موازی داده (DP) را برای استقرارهای موازی‌سازی تخصصی گسترده vLLM معرفی می‌کند—ویژگی‌ای که از خرابی‌های تک GPU جلوگیری می‌کند تا کل خوشه‌های سرویس‌دهی مدل را از کار بیندازند.

این به‌روزرسانی یک نقطه دردناک خاص در سرویس‌دهی مدل‌های ترکیب تخصص‌ها (MoE) را هدف قرار می‌دهد. برخلاف استقرارهای مدل سنتی که در آن هر نسخه به طور مستقل عمل می‌کند، معماری‌های MoE مانند DeepSeek-V3 لایه‌های متخصص را در گروه‌هایی از GPUها که باید به صورت جمعی کار کنند، تقسیم می‌کنند. زمانی که یک GPU در این پیکربندی‌ها خراب می‌شود، کل گروه—که احتمالاً 16 تا 128 GPU را شامل می‌شود—غیرعملیاتی می‌شود.

مشکل فنی

مدل‌های MoE شبکه‌های عصبی تخصصی "متخصص" را در چندین GPU توزیع می‌کنند. DeepSeek-V3، برای مثال، حاوی 256 متخصص در هر لایه است اما فقط 8 مورد را در هر توکن فعال می‌کند. توکن‌ها به هر GPUای که متخصصان مورد نیاز را در اختیار دارد از طریق عملیات‌های ارسال و ترکیب که نیاز دارند همه رتبه‌های شرکت‌کننده سالم باشند، هدایت می‌شوند.

قبلاً، یک خرابی رتبه واحد این عملیات‌های جمعی را می‌شکست. درخواست‌ها به نسخه‌های بازمانده در گروه آسیب‌دیده هدایت می‌شدند، اما هر درخواست با شکست مواجه می‌شد. بازیابی نیاز به راه‌اندازی مجدد کل سیستم داشت.

چگونه Ray آن را حل می‌کند

Ray Serve LLM اکنون با هر گروه DP را به عنوان یک واحد اتمی از طریق زمان‌بندی گروهی برخورد می‌کند. زمانی که یک رتبه خراب می‌شود، سیستم کل گروه را ناسالم علامت‌گذاری می‌کند، مسیریابی ترافیک به آن را متوقف می‌کند، گروه خراب را از بین می‌برد و آن را به عنوان یک واحد بازسازی می‌کند. سایر گروه‌های سالم در طول این فرایند به سرویس‌دهی درخواست‌ها ادامه می‌دهند.

این ویژگی به طور پیش‌فرض در Ray 2.55 فعال شده است. استقرارهای DP موجود نیازی به تغییرات کد ندارند—فریمورک بررسی‌های سلامت سطح گروه، زمان‌بندی و بازیابی را به طور خودکار مدیریت می‌کند.

مقیاس‌پذیری خودکار نیز این مرزها را رعایت می‌کند. عملیات‌های افزایش و کاهش مقیاس به جای نسخه‌های فردی، در افزایش‌های به اندازه گروه اتفاق می‌افتند و از ایجاد گروه‌های جزئی که نمی‌توانند ترافیک را سرویس‌دهی کنند، جلوگیری می‌کنند.

پیامدهای عملیاتی

این به‌روزرسانی یک ملاحظه طراحی مهم ایجاد می‌کند: عرض گروه در مقابل تعداد گروه‌ها. طبق معیارهای vLLM که توسط Anyscale ارجاع داده شده است، توان عملیاتی به ازای هر GPU نسبتاً پایدار در اندازه‌های موازی متخصص 32، 72 و 96 باقی می‌ماند. این بدان معناست که اپراتورها می‌توانند به سمت گروه‌های کوچک‌تر تنظیم کنند بدون اینکه کارایی را قربانی کنند—و گروه‌های کوچک‌تر به معنای شعاع انفجار کوچک‌تر زمانی که خرابی رخ می‌دهد، است.

Anyscale خاطرنشان می‌کند این انعطاف‌پذیری سطح هماهنگ‌سازی، کار انعطاف‌پذیری سطح موتور را که در جامعه vLLM اتفاق می‌افتد، تکمیل می‌کند. RFC موازی‌سازی تخصصی انعطاف‌پذیر vLLM به این می‌پردازد که چگونه زمان اجرا می‌تواند توپولوژی را به صورت پویا در یک گروه تنظیم کند، در حالی که Ray Serve LLM مدیریت می‌کند که کدام گروه‌ها وجود دارند و ترافیک دریافت می‌کنند.

برای سازمان‌هایی که مدل‌های سبک DeepSeek را در مقیاس بزرگ مستقر می‌کنند، مزیت عملی ساده است: خرابی‌های GPU به حوادث محلی تبدیل می‌شوند نه قطعی‌های سراسری سیستم. نمونه‌های کد و مراحل بازتولید در مخزن GitHub Anyscale در دسترس هستند.

منبع تصویر: Shutterstock