الذكاء الاصطناعي يمر بلحظة الآن ، بفضل أمثال Dall-E و ChatGPT لكن أدوات الذكاء الاصطناعي التي تحاكي الأصوات البشرية كان من الممكن أن تقطع شوطا بعيدا.
في وقت سابق من هذا الشهر ، أعلنت شركة ElevenLabs ومقرها المملكة المتحدة عن Prime Voice AI الذي يتيح للمستخدمين إنشاء الصوت المنطوق “ الأكثر واقعية ” بأي صوت وأسلوب.
ومع ذلك ، في غضون أسابيع قليلة فقط ، لجأ المشاغبون إلى استخدام الأداة لتحميل أصوات مشهورة مثل جو روغان إلى روبن ويليامز ، كما ذكرت موقع Motherboard.
تتيح ميزة “Voice Lab” الخاصة بالشركة للمستخدمين استنساخ الأصوات من عينات صوتية صغيرة.
ورد أن عددًا من المستخدمين على 4Chan ، لوحة الصور المجهولة ، نشروا مقطعًا لإيما واتسون تقرأ مقطعًا من Mein Kampf.
استخدم آخر صوتًا بدا وكأنه المخترع المخزي لـ Rick & Morty ، جاستن رويلاند ، يتحدث عن كيف كان سيضرب زوجته ، في إشارة إلى الادعاءات الحالية المتعلقة بالعنف المنزلي ضده.
نشر مستخدمو 4Chan الآخرين مقاطع من منظمة العفو الدولية التي تنشر كراهية شديدة للنساء أو رهاب المتحولين جنسياً باستخدام أصوات الشخصيات أو الرواة من مختلف الرسوم المتحركة أو ألعاب الفيديو.
يوم الإثنين ، انتقل موقع ElevenLabs إلى Twitter للإقرار بأنهم قد شهدوا “عددًا متزايدًا من حالات إساءة استخدام استنساخ الصوت”.
قالت الشركة إنه في حين أنه يمكنهم تتبع أي صوت تم إنشاؤه مرة أخرى إلى المستخدم ، فقد اختاروا معالجة المشكلة من خلال تنفيذ إجراءات حماية إضافية.
تم تقديم عمليات التحقق الإضافية من الحساب لتمكين الاستنساخ الصوتي “مثل معلومات الدفع أو حتى التحقق الكامل من الهوية” والتحقق من حقوق النشر الخاصة بالصوت من خلال إرسال عينة بنص مطلوب كضمانات محتملة.
حتى أن الشركة قالت إنها ستفكر في إسقاط Voice Lab تمامًا والتحقق يدويًا من كل طلب استنساخ.
كانت الشركة قد روجت لـ “الجودة الخارقة” للأصوات التي تم إنشاؤها بواسطة الذكاء الاصطناعي وحصلت على مليوني دولار أمريكي (3 دولارات أمريكية) من التمويل الأولي الأسبوع الماضي.
كان من المفترض أن تعمل الأداة على أتمتة الصوت في المقالات الإخبارية ، أو إنشاء صوت لألعاب الفيديو أو حتى سرد الكتب الصوتية ، ولكن يبدو أن الشركة ستضطر إلى إصلاح الآثار المتعلقة بالسلامة أولاً.
في كانون الثاني (يناير) ، أعلنت شركة Microsoft عن نظام الذكاء الاصطناعي VALL-E ، والذي يمكن أن يقلد الصوت البشري تمامًا بعد 3 ثوانٍ فقط.
ما هي تقنية التزييف العميق؟
Deepfakes هي مقاطع فيديو وصور تستخدم الذكاء الاصطناعي للتعلم العميق لتزوير شيء غير موجود بالفعل. من المعروف أنها تُستخدم في مقاطع الفيديو الإباحية والأخبار المزيفة والخداع.
يمكن استخدام المعلومات المضللة لجعل الأحداث التي لم تحدث أبدًا تبدو حقيقية ، أو وضع الأشخاص في مواقف معينة لم يكونوا فيها مطلقًا أو استخدامها لتصوير أشخاص يقولون أشياء لم يقلوها أبدًا.
ومع ذلك ، فقد ذكر عملاق التكنولوجيا أيضًا في بيان أخلاقي أنه نظرًا لأن VALL-E يمكنه توليف الكلام الذي يحافظ على هوية المتحدث ، فقد يحمل مخاطر محتملة في إساءة استخدام النموذج ، مثل انتحال التعرف على الصوت أو انتحال شخصية متحدث معين.
وقال البيان: “إذا كان النموذج معممًا على المتحدثين غير المرئيين في العالم الحقيقي ، فيجب أن يتضمن بروتوكولًا لضمان موافقة المتحدث على استخدام صوتهم ونموذج اكتشاف الكلام المركب”.
احصل على أحدث الأخبار والقصص السعيدة والتحليلات وغير ذلك الكثير