Το Ray 2.55 Προσθέτει Ανοχή Σφαλμάτων για Αναπτύξεις Μοντέλων AI Μεγάλης Κλίμακας

Joerg Hiller 02 Απρ 2026 18:35

Η ενημέρωση Ray Serve LLM της Anyscale επιτρέπει την ανοχή σφαλμάτων ομάδας DP για αναπτύξεις vLLM WideEP, μειώνοντας τον κίνδυνο διακοπής λειτουργίας για κατανεμημένα συστήματα συμπερασμού AI.

Το Ray 2.55 Προσθέτει Ανοχή Σφαλμάτων για Αναπτύξεις Μοντέλων AI Μεγάλης Κλίμακας

Η Anyscale κυκλοφόρησε μια σημαντική ενημέρωση στο πλαίσιο Ray Serve LLM που αντιμετωπίζει μια κρίσιμη λειτουργική πρόκληση για οργανισμούς που εκτελούν φόρτους εργασίας συμπερασμού AI μεγάλης κλίμακας. Το Ray 2.55 εισάγει ανοχή σφαλμάτων ομάδας παράλληλων δεδομένων (DP) για αναπτύξεις vLLM Wide Expert Parallelism—ένα χαρακτηριστικό που αποτρέπει τις αποτυχίες μεμονωμένων GPU από το να καταρρίψουν ολόκληρα συστήματα συστάδων εξυπηρέτησης μοντέλων.

Η ενημέρωση στοχεύει ένα συγκεκριμένο προβληματικό σημείο στην εξυπηρέτηση μοντέλων Mixture of Experts (MoE). Σε αντίθεση με τις παραδοσιακές αναπτύξεις μοντέλων όπου κάθε αντίγραφο λειτουργεί ανεξάρτητα, οι αρχιτεκτονικές MoE όπως το DeepSeek-V3 κατανέμουν επίπεδα ειδικών σε ομάδες GPU που πρέπει να λειτουργούν συλλογικά. Όταν αποτυγχάνει μία GPU σε αυτές τις διαμορφώσεις, ολόκληρη η ομάδα—που ενδεχομένως εκτείνεται από 16 έως 128 GPU—καθίσταται μη λειτουργική.

Το Τεχνικό Πρόβλημα

Τα μοντέλα MoE κατανέμουν εξειδικευμένα νευρωνικά δίκτυα "ειδικών" σε πολλαπλές GPU. Το DeepSeek-V3, για παράδειγμα, περιέχει 256 ειδικούς ανά επίπεδο αλλά ενεργοποιεί μόνο 8 ανά token. Τα tokens δρομολογούνται σε όποιες GPU κατέχουν τους απαιτούμενους ειδικούς μέσω λειτουργιών αποστολής και συνδυασμού που απαιτούν όλες οι συμμετέχουσες τάξεις να είναι υγιείς.

Προηγουμένως, η αποτυχία μιας μεμονωμένης τάξης θα έσπαγε αυτές τις συλλογικές λειτουργίες. Τα ερωτήματα θα συνέχιζαν να δρομολογούνται στα επιζώντα αντίγραφα της επηρεαζόμενης ομάδας, αλλά κάθε αίτημα θα απέτυχε. Η ανάκαμψη απαιτούσε επανεκκίνηση ολόκληρου του συστήματος.

Πώς το Ray το Λύνει

Το Ray Serve LLM τώρα αντιμετωπίζει κάθε ομάδα DP ως ατομική μονάδα μέσω προγραμματισμού ομάδας. Όταν αποτυγχάνει μία τάξη, το σύστημα σημειώνει ολόκληρη την ομάδα ως μη υγιή, σταματά τη δρομολόγηση κίνησης σε αυτήν, καταργεί την αποτυχημένη ομάδα και την ανακατασκευάζει ως μονάδα. Άλλες υγιείς ομάδες συνεχίζουν να εξυπηρετούν αιτήματα καθ' όλη τη διάρκεια.

Το χαρακτηριστικό είναι ενεργοποιημένο από προεπιλογή στο Ray 2.55. Οι υπάρχουσες αναπτύξεις DP δεν απαιτούν αλλαγές κώδικα—το πλαίσιο χειρίζεται αυτόματα τους ελέγχους υγείας σε επίπεδο ομάδας, τον προγραμματισμό και την ανάκαμψη.

Η αυτόματη κλιμάκωση σέβεται επίσης αυτά τα όρια. Οι λειτουργίες αύξησης και μείωσης κλίμακας συμβαίνουν σε βήματα μεγέθους ομάδας και όχι σε μεμονωμένα αντίγραφα, αποτρέποντας τη δημιουργία μερικών ομάδων που δεν μπορούν να εξυπηρετήσουν κίνηση.

Λειτουργικές Επιπτώσεις

Η ενημέρωση δημιουργεί μια σημαντική σχεδιαστική εξέταση: πλάτος ομάδας έναντι αριθμού ομάδων. Σύμφωνα με τα benchmarks vLLM που αναφέρει η Anyscale, η απόδοση ανά GPU παραμένει σχετικά σταθερή σε παράλληλα μεγέθη ειδικών 32, 72 και 96. Αυτό σημαίνει ότι οι χειριστές μπορούν να προσαρμόσουν προς μικρότερες ομάδες χωρίς να θυσιάζουν την αποδοτικότητα—και οι μικρότερες ομάδες σημαίνουν μικρότερες ακτίνες έκρηξης όταν συμβαίνουν αποτυχίες.

Η Anyscale σημειώνει ότι αυτή η ανθεκτικότητα σε επίπεδο ενορχήστρωσης συμπληρώνει την εργασία ελαστικότητας σε επίπεδο μηχανής που συμβαίνει στην κοινότητα vLLM. Το vLLM Elastic Expert Parallelism RFC αντιμετωπίζει πώς ο χρόνος εκτέλεσης μπορεί να προσαρμόσει δυναμικά την τοπολογία εντός μιας ομάδας, ενώ το Ray Serve LLM διαχειρίζεται ποιες ομάδες υπάρχουν και λαμβάνουν κίνηση.

Για οργανισμούς που αναπτύσσουν μοντέλα τύπου DeepSeek σε κλίμακα, το πρακτικό όφελος είναι απλό: οι αποτυχίες GPU γίνονται εντοπισμένα περιστατικά και όχι διακοπές λειτουργίας σε επίπεδο συστήματος. Δείγματα κώδικα και βήματα αναπαραγωγής είναι διαθέσιμα στο αποθετήριο GitHub της Anyscale.

Πηγή εικόνας: Shutterstock

ray
vllm
υποδομή ai
μηχανική μάθηση
κατανεμημένος υπολογισμός

Το Ray 2.55 Προσθέτει Ανοχή Σφαλμάτων για Αναπτύξεις Μοντέλων Τεχνητής Νοημοσύνης Μεγάλης Κλίμακας

Το Ray 2.55 Προσθέτει Ανοχή Σφαλμάτων για Αναπτύξεις Μοντέλων AI Μεγάλης Κλίμακας

Το Τεχνικό Πρόβλημα

Πώς το Ray το Λύνει

Λειτουργικές Επιπτώσεις

Μπορεί επίσης να σας αρέσει

Ο CEO της Ripple Απαντά στον Ιδρυτή της Avalanche: Χαίρομαι που Ζούμε Δωρεάν στο Μυαλό σου

Τα Συμβόλαια Μελλοντικής Εκπλήρωσης του Dow Jones Καταρρέουν καθώς ο Ασταθής Κύκλος Φόβου-Ελπίδας Επιταχύνει την Αναταραχή της Αγοράς

Κρυπτονομίσματα: Η JP Morgan θέτει στόχο $170K για το Bitcoin, Γιατί τα Έξυπνα Χρήματα Στρέφονται σε Αυτό το Αναδυόμενο Utility Token

Νέες τάσεις

Το ρολόι της ανασύνταξης του Υπουργικού Συμβουλίου του Trump εκκινεί καθώς η πλειοψηφία των Ρεπουμπλικανών στη Γερουσία κρέμεται στη ζυγαριά

Η Πτώση Δεν Είναι Τρομακτική – Ορίστε 5 Μετοχές που ένας Ειδικός Αγοράζει Αυτόν τον Απρίλιο

Η Pam Bondi φέρεται να έμαθε ότι απολύθηκε πριν από τη prime-time ομιλία του Trump

Η Google Επιστρέφει στον Αγώνα της Ανοιχτής Πηγής AI με το Gemma 4

Ο αποδοκιμασμένος κωμικός επιστρέφει στο mainstream αφού παραδέχτηκε σεξουαλική παρενόχληση

Ζωντανά νέα 24/7

Crypto Prices