ابتكر ميتا مالك فيسبوك ما يقول إنه أقوى مولد صوت للذكاء الاصطناعي حتى الآن ، لكنه يحجم عن إطلاقه للجمهور.
تدعي شركة التكنولوجيا العملاقة ، التي يطلق عليها اسم “Voicebox” ، أنها طفرة في الذكاء الاصطناعي التوليدي للكلام ، وتجاوز ما تم تدريبه خصيصًا لإنجازه.
تمامًا كما يمكن لـ ChatGPT و Bard إنشاء نص بناءً على المطالبات ، يمكن لـ Voicebox إنشاء مخرجات صوتية من البداية ، أو تعديل عينة معينة في مجموعة متنوعة من الأنماط.
يمكن لـ Voicebox حاليًا إنتاج مقاطع صوتية للكلام بست لغات ، وفقًا لمدونة من Meta. كما توصف بأنها تتفوق على الأدوات الموجودة.
ومع ذلك ، قالت الشركة إنها لم تجعل نموذج أو رمز Voicebox متاحًا للجمهور في هذا الوقت بسبب “المخاطر المحتملة لسوء الاستخدام”.
قال ميتا: “بينما نعتقد أنه من المهم أن نكون منفتحين مع مجتمع الذكاء الاصطناعي وأن نشارك أبحاثنا للنهوض بأحدث ما توصلت إليه التكنولوجيا في الذكاء الاصطناعي ، من الضروري أيضًا تحقيق التوازن الصحيح بين الانفتاح مع المسؤولية”.
في الوقت الحالي ، أصدرت عينات صوتية وورقة بحثية توضح بالتفصيل النهج الكامن وراء Voicebox والنتائج التي تم تحقيقها.
أضافت Meta أنها قامت ببناء ميزة “فعالة للغاية” يمكنها التمييز بين الكلام الأصيل والصوت الذي يتم إنشاؤه باستخدام Voicebox.
تم تدريب Voicebox على أكثر من 50000 ساعة من الكلام المسجل والنصوص من الكتب الصوتية المتاحة للجمهور باللغات الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية.
في الأسبوع الماضي فقط ، أصدرت Meta نموذجًا جديدًا للذكاء الاصطناعي يمكنه إنشاء صور “لا يمكن تمييزها” عن تلك التي يصنعها الإنسان.
رفض المسؤولون التنفيذيون للشركة سابقًا تحذيرات الآخرين في الصناعة بشأن المخاطر المحتملة للتكنولوجيا ، ورفضوا التوقيع على بيان الشهر الماضي بدعم من كبار المسؤولين التنفيذيين من OpenAI و DeepMind و Microsoft و Google والذي ساوى بين مخاطرها والأوبئة والحروب.
بدأت Meta أيضًا في دمج ميزات الذكاء الاصطناعي التكوينية في منتجاتها الاستهلاكية ، مثل أدوات الإعلان التي يمكنها إنشاء خلفيات صور ومنتج Instagram يمكنه تعديل صور المستخدم ، وكلاهما بناءً على المطالبات النصية.
تتضمن ميزات Voicebox ما يلي:
- من خلال ثانيتين فقط من الصوت ، يمكن أن يتطابق مع النمط واستخدامه في إنشاء تحويل النص إلى كلام ، ومن المحتمل أن يكون مفيدًا لإيصال الكلام إلى الأشخاص غير القادرين على الكلام. يمكنك أيضًا استخدامه لتخصيص أصوات مساعديك الافتراضيين.
- باستخدام عينة من الكلام ومقطع نصي باللغات الإنجليزية ، أو الفرنسية ، أو الألمانية ، أو الإسبانية ، أو البولندية ، أو البرتغالية ، يمكن لـ Voicebox قراءة النص بهذه اللغة. يمكن استخدام هذا للتواصل عندما يتحدث الناس لغات مختلفة.
- تحرير المقاطع في التسجيلات الصوتية التي تمت مقاطعتها بسبب الضوضاء ، أو استبدال الكلمات المنطوقة بشكل خاطئ دون الحاجة إلى إعادة تسجيل الكلام بالكامل.
MORE: Mum in AI الخطف الاحتيال يتذكر “ الخوف الزاحف ” عندما أخبرها Deepfake: “ لدي ابنتك ”
المزيد: لا مزيد من الأيدي ذات ستة أصابع: يمكن للذكاء الاصطناعي في Meta إنشاء صور “لا يمكن تمييزها” عن تلك التي يصنعها الإنسان