شركة NVIDIA تكشف PersonaPlex نموذج محادثة صوتية يتحدث ويستمع في الوقت نفسه !
أعلنت NVIDIA عن نموذج PersonaPlex كمقاربة جديدة للذكاء الاصطناعي الحواري تجمع بين المحادثة الطبيعية وتخصيص الشخصية والصوت داخل نموذج واحد يعمل بأسلوب Full-Duplex، ما يسمح له بالاستماع والتحدث في الوقت نفسه دون التأخير التقليدي في أنظمة ASR→LLM→TTS المتسلسلة.
النموذج يتيح اختيار أي صوت وتحديد أي دور عبر نصوص موجهة، سواء مساعد ذكي أو موظف خدمة عملاء أو شخصية خيالية، مع الحفاظ على الشخصية نفسها طوال الحوار. يعتمد على الاستجابة الفورية، المقاطعة الطبيعية، إشارات الاستماع مثل backchanneling، وإيقاع محادثة قريب من التفاعل البشري.
نموذج PersonaPlex مبني على معمارية Moshi ويحتوي نحو 7 مليارات معلمة. يستخدم ترميزًا صوتيًا عصبيًا Mimi لتحويل الصوت إلى رموز، ومعالجات Temporal وDepth Transformers لفهم السياق اللحظي للمحادثة، ثم إعادة توليد الصوت في الزمن الحقيقي. اللغة الدلالية يقودها نموذج Helium المسؤول عن الفهم والتعميم خارج سيناريوهات التدريب.
الميزة الأساسية للنموذج هي Full Duplex حيث يعالج الصوت أثناء حديث المستخدم ويرد فورًا دون انتظار انتهاء الجملة. هذا يلغي التأخير ويمنحه القدرة على التفاعل مثل البشر، بما يشمل التوقف، المقاطعة، التعبير العاطفي، والتأكيدات اللفظية القصيرة أثناء الاستماع.
النموذج يعتمد على مدخلين أساسيين لتشكيل الشخصية
Voice Prompt يحدد خصائص الصوت والأسلوب والنبرة
Text Prompt يحدد الدور والسياق والخلفية وطبيعة الحوار
التخاريف التدريبية تضمنت مزيجًا من محادثات حقيقية وبيانات صناعية. تم استخدام 7303 محادثات بشرية واقعية من Fisher English Corpus بإجمالي 1217 ساعة لتعلم الأنماط الطبيعية مثل المقاطعة والتوقف والانفعالات. كما جرى تدريب النموذج على أكثر من 39 ألف محادثة صناعية لدور المساعد و105 آلاف محادثة لخدمة العملاء، مولدة باستخدام نماذج لغوية وتوليد صوتي اصطناعي.
الدمج بين البيانات الحقيقية والصناعية منح النموذج ميزتين متكاملتين
طبيعية الكلام والتفاعل من التسجيلات البشرية
الالتزام بالمهمة والتعليمات من الحوارات الصناعية
أظهر PersonaPlex قدرة على التعميم خارج مجالات التدريب، مثل التعامل مع سيناريوهات تقنية معقدة أو مواقف طارئة، مع الحفاظ على الشخصية والنبرة المناسبة للسياق.
في الاختبارات على معايير المحادثة مثل FullDuplexBench تفوق النموذج على أنظمة محادثة أخرى في ثلاثة محاور رئيسية
ديناميكيات الحوار وتبادل الأدوار
زمن الاستجابة والتعامل مع المقاطعة
الالتزام بالتعليمات والمهام في سيناريوهات المساعد وخدمة العملاء
النموذج يمثل انتقالًا من أنظمة المحادثة المتسلسلة إلى نماذج صوتية موحدة قادرة على فهم السياق اللحظي وإنتاج ردود صوتية فورية، ما يجعله أقرب إلى محادثة بشرية حقيقية بدل الاستجابة النصية التقليدية.










