Qwen 3.5 Omni: نموذج الذكاء الاصطناعي من Alibaba يمكنه الآن السمع والمشاهدة واستنساخ صوتك

باختصار

يجلب Qwen 3.5 Omni من Alibaba ذكاء اصطناعي متعدد الوسائط حقيقي في الوقت الفعلي إلى سباق الذكاء الاصطناعي المتقدم.
تتفوق المعالجة الأصلية للصوت والصورة على خطوط المعالجة متعددة الوسائط المجمعة من حيث السرعة والتماسك.
استنساخ الصوت، والمقاطعة الدلالية، وترميز الأجواء تشير إلى تحول نحو وكلاء الذكاء الاصطناعي التفاعليين بالكامل.

أطلقت Alibaba للتو أكثر ترقياتها طموحًا للذكاء الاصطناعي حتى الآن.

أصدر فريق Qwen في الشركة Qwen 3.5 Omni يوم الأحد، وهو إصدار جديد من الذكاء الاصطناعي "متعدد الوسائط" الذي يعالج النص والصور والصوت والفيديو في وقت واحد، ويتحدث في الوقت الفعلي عبر 36 لغة، مما يضع نموذجه في نفس ساحة المعركة مع أحدث نماذج الذكاء الاصطناعي الأساسية المتاحة حاليًا.

"Omni" ليست مجرد كلمة تسويقية هنا. معظم نماذج الذكاء الاصطناعي التي تتفاعل معها هي في المقام الأول أنظمة إدخال نص وإخراج نص. بعضها يتعامل مع الصور، وبعضها يتعامل مع الصوت. يتعامل Qwen 3.5 Omni مع كل منها بشكل أصلي، في نفس الوقت، دون الحاجة إلى تحويل كل شيء إلى نص من خلال أدوات طرف ثالث.

يأتي النموذج الجديد بثلاثة أحجام - Plus و Flash و Light - جميعها تدعم نافذة سياق صغيرة (وفقًا لمعايير اليوم) بحجم 256,000 رمز مميز. تم تدريبه على أكثر من 100 مليون ساعة من البيانات السمعية البصرية - وهو نطاق يضعه في فئة وزن مختلفة عن معظم المنافسين.

Qwen 3.5 Omni هو تطور لـ Qwen 3 Omni Flash، نموذج Alibaba متعدد الوسائط السابق الذي صدر في ديسمبر 2025. هذا الإصدار أثار الإعجاب بالفعل بقدرته على معالجة الفيديو والصوت في وقت واحد - يمكنه التعامل مع تعليمات تحرير الصور التي تجمع بين مدخلات مرئية متعددة بطرق لا يستطيع المنافسون القيام بها - وبث استجابات صوتية بزمن انتقال منخفض يصل إلى 234 ميلي ثانية.

كان أيضًا أول نموذج يحاول تقديم بديل لـ NotebookLM من Google. لقد حقق شيئًا ما، لكن الجودة لم تكن على قدم المساواة مع عرض Google.

يأخذ Qwen 3.5 Omni كل ذلك ويضيف نافذة سياق أطول، واستدلال أفضل، ومكتبة لغات أوسع بكثير، ومجموعة من ميزات التفاعل في الوقت الفعلي التي لم يكن لدى الجيل السابق.

الترقية الرئيسية هي ما يحدث عندما تتحدث إليه فعليًا. يدعم Qwen3.5-Omni الآن المقاطعة الدلالية: يمكنه التمييز بين قولك "آه-هاه" في منتصف الجملة وبين رغبتك الفعلية في المقاطعة، لذلك لن يتوقف في منتصف التفكير في كل مرة يسعل فيها شخص ما في الخلفية، مما يجعل التفاعل المنطوق أكثر سلاسة.

تقنية جديدة تسمى ARIA، وهي اختصار لـ Adaptive Rate Interleave Alignment، تعالج أيضًا إزعاجًا دقيقًا ولكنه مستمر: أنظمة الذكاء الاصطناعي التي تشوه الأرقام أو الكلمات غير العادية عند القراءة بصوت عالٍ. تقوم ARIA بمزامنة النص والكلام ديناميكيًا للحفاظ على المخرجات طبيعية ودقيقة.

ثم هناك استنساخ الصوت. يمكن للمستخدمين تحميل عينة صوتية وجعل النموذج يتبنى هذا الصوت في استجاباته، وهي ميزة تضع Qwen في منافسة مباشرة مع ElevenLabs وأدوات الصوت المخصصة الأخرى. لم نتمكن من الوصول إلى هذه الميزة، لأن هذه الميزة، على الأقل في الوقت الحالي، متاحة فقط عبر واجهة برمجة التطبيقات.

في معايير استقرار الصوت متعدد اللغات، تفوق Qwen3.5 Omni-Plus على ElevenLabs و GPT-Audio و Minimax عبر 20 لغة. يدعم النموذج الآن أيضًا البحث على الويب في الوقت الفعلي، مما يعني أنه يمكنه الإجابة على الأسئلة حول الأخبار العاجلة أو بيانات السوق الحية دون التظاهر بأنه يعرف بالفعل.

يسلط الفريق الضوء أيضًا على ما يسمونه "ترميز الأجواء السمعية البصرية"، حيث يمكن للنموذج مشاهدة تسجيل شاشة أو فيديو لمهمة برمجية وكتابة كود وظيفي بناءً فقط على ما يراه ويسمعه، دون الحاجة إلى أي موجه نصي. إنها معاينة صغيرة لكيفية عمل مساعدي الذكاء الاصطناعي في النهاية داخل سير عملك بدلاً من جانبه.

لفهم ما يعنيه "متعدد الوسائط" فعليًا في الممارسة العملية، أجرينا اختبارًا سريعًا: أطعمنا كلاً من Qwen3.5-Omni و ChatGPT 5.4 في وضع "التفكير" نفس فيديو YouTube Short - مقطع من رئيس Dastan (Dastan هي الشركة الأم لـ Decrypt) والمعلق Farokh يناقشان أخبارًا عاجلة. عالج Qwen 3.5 Omni الفيديو بشكل أصلي وأعاد تحليلاً كاملاً في حوالي دقيقة واحدة: من كان يتحدث، وما الذي كانوا يناقشونه، وتعليق موضوعي حول الموضوع بناءً على معرفته الخاصة بالمجال.

ChatGPT 5.4، الذي ليس متعدد الوسائط، كان عليه أن يتعامل مع ما حصل عليه. استخرج إطارات من الفيديو، ومررها عبر نموذج رؤية، واستخدم Whisper لنسخ الصوت، وطبق أداة OCR لقراءة الترجمات المضمنة - ثلاث عمليات منفصلة مجمعة معًا لتقريب ما يفعله Qwen3.5-Omni في مرة واحدة. استغرقت النتيجة تسع دقائق، وذلك في ظل ظروف مثالية: فيديو مضاء جيدًا مع صوت نظيف وترجمات مدمجة. نادرًا ما يوفر محتوى العالم الحقيقي الثلاثة جميعًا.

في اختباراتنا السريعة عبر مدخلات متعددة، تعامل النموذج أيضًا مع المطالبات بالإسبانية والبرتغالية والإنجليزية دون مشاكل - مع تبديل اللغات في منتصف المحادثة دون فقدان السياق.

في المعايير القياسية، تفوق Qwen 3.5 Omni Plus على Gemini 3.1 Pro في الفهم الصوتي العام والاستدلال ومهام الترجمة، وتطابق معه في الفهم السمعي البصري. يغطي التعرف على الكلام الآن 113 لغة ولهجة - ارتفاعًا من 19 في الجيل السابق.

هذا هو إصدار Alibaba الرئيسي الثاني للذكاء الاصطناعي في ستة أسابيع. في فبراير، أطلقت Qwen 3.5، وهو نموذج نصي ورؤية تطابق أو تفوق على النماذج الرائدة في معايير الاستدلال والبرمجة - جزء من سلسلة تضمنت أيضًا Qwen Deep Research ومجموعة من الأدوات المنافسة لـ OpenAI و Google. يمد Qwen 3.5 Omni هذا الزخم إلى منطقة متعددة الوسائط بالكامل، في وقت يتسابق فيه كل مختبر ذكاء اصطناعي رئيسي لبناء أنظمة تتعامل مع الطيف الكامل للتواصل البشري - وليس فقط الكلمات على الشاشة.

النموذج متاح الآن عبر واجهة برمجة التطبيقات Alibaba Cloud ويمكن اختباره مباشرة في Qwen Chat أو من خلال العرض التوضيحي عبر الإنترنت لـ Hugging Face.

النشرة الإخبارية اليومية

ابدأ كل يوم بأهم الأخبار الآن، بالإضافة إلى ميزات أصلية وبودكاست ومقاطع فيديو والمزيد.

المصدر: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Qwen 3.5 Omni: نموذج الذكاء الاصطناعي من Alibaba يمكنه الآن السمع والمشاهدة واستنساخ صوتك

باختصار

النشرة الإخبارية اليومية

قد يعجبك أيضاً

تحصل PhilWeb على اعتماد لخدمات الألعاب

كيفية شراء الكريبتو بإمكانية 150 ضعفاً مع امتلاء Pepeto بشكل أسرع في كل مرحلة

من طفرة المواليد إلى الانهيار: معدل الخصوبة في الفلبين ينخفض إلى مستوى قياسي منخفض في 2025

الأخبار الرائجة

ميتسوبيشي تتبنى بلوكتشين جي بي مورغان للمدفوعات المؤسسية

عاجل: CME تطلق خيارات العقود الآجلة لـ XRP

ينخفض زوج الدولار الأمريكي/الين الياباني دون 160.00 حيث يشير بنك اليابان إلى إلحاح رفع أسعار الفائدة

أعضاء مجلس الشيوخ الأمريكي يطلقون مشروع قانون جديد لدفع توسع تعدين البيتكوين وتعزيز احتياطي بيتكوين الاستراتيجي – أخبار تنظيم Bitcoin

ران نيونر يشكك في هوية البيتكوين، تحولات في سرد الكريبتو

أسعار الكريبتو