الذكاء الاصطناعي الجديد Microsoft يمكنه تقليد صوت أي شخص

يوم الخميس، الباحثون Microsoft أعلنت شركة جوجل عن نموذج جديد للذكاء الاصطناعي (AI) يسمى VALL-E يمكنه تقليد الصوت البشري بدقة عند إعطاء عينة صوتية مدتها ثلاث ثوانٍ. بمجرد أن يتعلم صوتًا معينًا، يستطيع VALL-E تجميع صوت ذلك الشخص وهو يقول أي شيء مع الحفاظ على النغمة العاطفية للمتحدث.

يقترح مؤلفوها أنه يمكن استخدام VALL-E لتحويل النص إلى كلام بجودة عالية ، وتحرير الكلام ، حيث يمكن تحرير تسجيل الشخص وتغييره من نسخ نصية (مما يجعلهم يقولون أشياء لم يقلوها في الأصل) ، و لإنشاء محتوى صوتي مدمج مع نماذج الذكاء الاصطناعي الأخرى مثل GPT-3.

Microsoft يطلق على VALL-E اسم "نموذج لغة الترميز العصبي"، وهو يعتمد على تقنية تسمى EnCodec التي أعلنت عنها Meta في أكتوبر 2022. على عكس طرق تحويل النص إلى كلام الأخرى، والتي عادةً ما تقوم بتوليف الكلام عن طريق معالجة الأشكال الموجية، يقوم VALL-E بإنشاء صوت منفصل رموز الترميز من المطالبات النصية والصوتية. فهو يحلل بشكل أساسي كيف يبدو الشخص، ويقسم تلك المعلومات إلى مكونات منفصلة (تسمى "الرموز المميزة") بفضل EnCodec، ويستخدم بيانات التدريب لمطابقة ما "يعرفه" حول الشكل الذي سيبدو عليه هذا الصوت إذا نطق عبارات أخرى في الخارج من عينة الثلاث ثواني.

Microsoft تم تدريب قدرات تركيب الكلام الخاصة بـ VALL-E على مكتبة صوتية تم تجميعها بواسطة Meta تسمى LibriLight. يحتوي على 60 ساعة من البث باللغة الإنجليزية من أكثر من 7 مذيع، معظمها مأخوذ من كتب LibriVox الصوتية المتاحة للجمهور.

بالإضافة إلى الحفاظ على نغمة الصوت والنغمة العاطفية للمذيع، يستطيع VALL-E أيضًا محاكاة "البيئة الصوتية" للعينة الصوتية. على سبيل المثال، إذا تم الحصول على العينة من محادثة هاتفية، فسوف يحاكي إخراج الصوت المركب الخصائص الصوتية والترددية للمحادثة الهاتفية. عينات أيضا Microsoft أثبت أن VALL-E يمكنه توليد اختلافات في الجرس الصوتي.

ربما بسبب قدرة VALL-E على تسهيل الاحتيال والخداع، Microsoft لم تقدم كود VALL-E للآخرين لتجربته، لذلك لن نتمكن من اختبار قدراته. يبدو أن الباحثين يدركون الضرر الاجتماعي المحتمل الذي يمكن أن تسببه هذه التكنولوجيا. وفي خاتمة المقال يكتبون:

"نظرًا لأن VALL-E يمكنه توليف الكلام الذي يحافظ على هوية المتحدث ، فقد ينطوي على مخاطر محتملة لإساءة استخدام النموذج ، مثل انتحال التعرف على الصوت أو انتحال شخصية متحدث معين. لتقليل هذه المخاطر ، سيتم إنشاء نموذج التعرف على تمييز ما إذا كان مقطع الصوت قد تم تصنيعه باستخدام VALL-E. "

يمكنك مساعدة أوكرانيا في محاربة الغزاة الروس. أفضل طريقة للقيام بذلك هي التبرع بالأموال للقوات المسلحة لأوكرانيا من خلال الحفاظ على الحياة او من خلال الصفحة الرسمية NBU.

اقرأ أيضا:

مصدرarstechnica

0 التعليقات

المراجعات المضمنة

عرض كل التعليقات

مقالات أخرى

الذكاء الاصطناعي الجديد Microsoft يقلد صوت أي شخص من عينة صوتية مدتها 3 ثواني

احدث التعليقات