Το Ray 2.55 Προσθέτει Ανοχή Σφαλμάτων για Αναπτύξεις Μοντέλων AI Μεγάλης Κλίμακας
Joerg Hiller 02 Απρ 2026 18:35
Η ενημέρωση Ray Serve LLM της Anyscale επιτρέπει την ανοχή σφαλμάτων ομάδας DP για αναπτύξεις vLLM WideEP, μειώνοντας τον κίνδυνο διακοπής λειτουργίας για κατανεμημένα συστήματα συμπερασμού AI.
Η Anyscale κυκλοφόρησε μια σημαντική ενημέρωση στο πλαίσιο Ray Serve LLM που αντιμετωπίζει μια κρίσιμη λειτουργική πρόκληση για οργανισμούς που εκτελούν φόρτους εργασίας συμπερασμού AI μεγάλης κλίμακας. Το Ray 2.55 εισάγει ανοχή σφαλμάτων ομάδας παράλληλων δεδομένων (DP) για αναπτύξεις vLLM Wide Expert Parallelism—ένα χαρακτηριστικό που αποτρέπει τις αποτυχίες μεμονωμένων GPU από το να καταρρίψουν ολόκληρα συστήματα συστάδων εξυπηρέτησης μοντέλων.
Η ενημέρωση στοχεύει ένα συγκεκριμένο προβληματικό σημείο στην εξυπηρέτηση μοντέλων Mixture of Experts (MoE). Σε αντίθεση με τις παραδοσιακές αναπτύξεις μοντέλων όπου κάθε αντίγραφο λειτουργεί ανεξάρτητα, οι αρχιτεκτονικές MoE όπως το DeepSeek-V3 κατανέμουν επίπεδα ειδικών σε ομάδες GPU που πρέπει να λειτουργούν συλλογικά. Όταν αποτυγχάνει μία GPU σε αυτές τις διαμορφώσεις, ολόκληρη η ομάδα—που ενδεχομένως εκτείνεται από 16 έως 128 GPU—καθίσταται μη λειτουργική.
Το Τεχνικό Πρόβλημα
Τα μοντέλα MoE κατανέμουν εξειδικευμένα νευρωνικά δίκτυα "ειδικών" σε πολλαπλές GPU. Το DeepSeek-V3, για παράδειγμα, περιέχει 256 ειδικούς ανά επίπεδο αλλά ενεργοποιεί μόνο 8 ανά token. Τα tokens δρομολογούνται σε όποιες GPU κατέχουν τους απαιτούμενους ειδικούς μέσω λειτουργιών αποστολής και συνδυασμού που απαιτούν όλες οι συμμετέχουσες τάξεις να είναι υγιείς.
Προηγουμένως, η αποτυχία μιας μεμονωμένης τάξης θα έσπαγε αυτές τις συλλογικές λειτουργίες. Τα ερωτήματα θα συνέχιζαν να δρομολογούνται στα επιζώντα αντίγραφα της επηρεαζόμενης ομάδας, αλλά κάθε αίτημα θα απέτυχε. Η ανάκαμψη απαιτούσε επανεκκίνηση ολόκληρου του συστήματος.
Πώς το Ray το Λύνει
Το Ray Serve LLM τώρα αντιμετωπίζει κάθε ομάδα DP ως ατομική μονάδα μέσω προγραμματισμού ομάδας. Όταν αποτυγχάνει μία τάξη, το σύστημα σημειώνει ολόκληρη την ομάδα ως μη υγιή, σταματά τη δρομολόγηση κίνησης σε αυτήν, καταργεί την αποτυχημένη ομάδα και την ανακατασκευάζει ως μονάδα. Άλλες υγιείς ομάδες συνεχίζουν να εξυπηρετούν αιτήματα καθ' όλη τη διάρκεια.
Το χαρακτηριστικό είναι ενεργοποιημένο από προεπιλογή στο Ray 2.55. Οι υπάρχουσες αναπτύξεις DP δεν απαιτούν αλλαγές κώδικα—το πλαίσιο χειρίζεται αυτόματα τους ελέγχους υγείας σε επίπεδο ομάδας, τον προγραμματισμό και την ανάκαμψη.
Η αυτόματη κλιμάκωση σέβεται επίσης αυτά τα όρια. Οι λειτουργίες αύξησης και μείωσης κλίμακας συμβαίνουν σε βήματα μεγέθους ομάδας και όχι σε μεμονωμένα αντίγραφα, αποτρέποντας τη δημιουργία μερικών ομάδων που δεν μπορούν να εξυπηρετήσουν κίνηση.
Λειτουργικές Επιπτώσεις
Η ενημέρωση δημιουργεί μια σημαντική σχεδιαστική εξέταση: πλάτος ομάδας έναντι αριθμού ομάδων. Σύμφωνα με τα benchmarks vLLM που αναφέρει η Anyscale, η απόδοση ανά GPU παραμένει σχετικά σταθερή σε παράλληλα μεγέθη ειδικών 32, 72 και 96. Αυτό σημαίνει ότι οι χειριστές μπορούν να προσαρμόσουν προς μικρότερες ομάδες χωρίς να θυσιάζουν την αποδοτικότητα—και οι μικρότερες ομάδες σημαίνουν μικρότερες ακτίνες έκρηξης όταν συμβαίνουν αποτυχίες.
Η Anyscale σημειώνει ότι αυτή η ανθεκτικότητα σε επίπεδο ενορχήστρωσης συμπληρώνει την εργασία ελαστικότητας σε επίπεδο μηχανής που συμβαίνει στην κοινότητα vLLM. Το vLLM Elastic Expert Parallelism RFC αντιμετωπίζει πώς ο χρόνος εκτέλεσης μπορεί να προσαρμόσει δυναμικά την τοπολογία εντός μιας ομάδας, ενώ το Ray Serve LLM διαχειρίζεται ποιες ομάδες υπάρχουν και λαμβάνουν κίνηση.
Για οργανισμούς που αναπτύσσουν μοντέλα τύπου DeepSeek σε κλίμακα, το πρακτικό όφελος είναι απλό: οι αποτυχίες GPU γίνονται εντοπισμένα περιστατικά και όχι διακοπές λειτουργίας σε επίπεδο συστήματος. Δείγματα κώδικα και βήματα αναπαραγωγής είναι διαθέσιμα στο αποθετήριο GitHub της Anyscale.
Πηγή εικόνας: Shutterstock- ray
- vllm
- υποδομή ai
- μηχανική μάθηση
- κατανεμημένος υπολογισμός







