استنساخ الأصوات عبر الذكاء الاصطناعي بات أكثر خطراً

المصدر:

بلومبرغ

يبلغ عدد متابعي جوردن هاوليت على منصات "إنستغرام" و"تيك توك" و"يوتيوب" 24 مليون شخص، وهو شاب بلغ من عمره 26 عاماً، يختار بحرص شديد العلامات التجارية التي يتعاون معها، إذ وقّع عقوداً مع "دومينوز بيتزا" و"غوغل" و"وينغ ستوب" (WingStop).

يكسب هاوليت رزقه من إنتاج مقاطع مصورة تتناول مواضيع متنوعة مثل "فتح المراطبين كمحترف" أو الطريقة الأفضل لتناول طبق من مطعم (شيبوتل) Chipotle"، لذا فزع الشاب حين بدأ بتلقي رسائل تسأله عن سبب ترويجه لعلاج مزعوم للعمى عبر "فيسبوك" و"إنستغرام".

فتح هاوليت أحد تلك الروابط، واستمع بهلع إلى صوت يماثل صوته يصف صاحبه كيف أن "باحثين كباراً من كامبردج" اكتشفوا تمريناً من سبع ثوان قادر على منح أي شخص بصراً حاداً. عرض الفيديو رديء التحرير صوراً شعاعيةً للدماغ، ومشاهد لأناس في منتصف العمر يحدقون بشاشات هواتفهم، لكن الصوت كان مقنعاً جداً بحسب هاوليت، الذي قال: "حين سمعت صوتي فزعت... يمكنهم نظرياً تقويلي أي شيء".

مكالمات بصوت بايدن

يحذر خبراء الأمن السيبراني منذ سنوات من مخاطر التزييف العميق، أي المحتوى المولد عبر الذكاء الاصطناعي أو المتلاعب بها ويسهل الاعتقاد بأنها أصلية. وتركزت معظم المخاوف على الصور ومقاطع الفيديو، إلا أنه خلال العام الماضي اتضح أن المقاطع الصوتية المعدّة بتقنية التزييف العميق، أي ما يُعرف أحياناً بـ"استنساخ الأصوات" تشكل الخطر الأكثر إلحاحاً.

قال فيجاي بالاسوبرامانيان، مؤسس شركة "بيندروب" (Pindrop) للتحقيق في عمليات الاحتيال إنهم بدأوا يرصدون احتيالات تستهدف بعض عملاء المصارف، استخدم مرتكبوها صوتاً اصطناعياً لينتحلوا شخصية صاحب الحساب عند الاتصال بخدمة العملاء.

ترتبط المخاوف الكبرى الأخرى بخطر التلاعب لأغراض سياسية، كما حدث حين تلقى 20 ألف ناخب في ولاية نيوهامبشير مكالمات هاتفية تزعم أنها من الرئيس جو بايدن تحثهم على عدم التصويت له في اليوم التالي. لم يكن للمكالمات تأثير يُذكر على أرض الواقع، فاسم بايدن لم يكن مدرجاً أصلاً على بطاقات الاقتراع، مع ذلك فاز بعد أن أطلق مؤيدوه حملة لكتابة اسمه عليها.

لكن تلك الحادثة زادت خشية أن يكون لهذه التقنية تأثير كبير على الانتخابات الرئاسية هذا العام. وكانت هيئة الاتصالات الاتحادية حظرت الحملات الآلية عبر الهاتف التي تستخدم الذكاء الاصطناعي.

شرحت "بيندروب" أن المقطع المصور لهاوليت أُنتج من خلال استغلال تسجيلات له وهو يتحدث، أُخذت على ما يبدو من مقاطع فيديو كان نشرها عبر حساباته على "يوتيوب" وإنستغرام"، وأُدخلت في برنامج إلكتروني من صناعة الشركة الناشئة "إليفن لابز" (ElevenLabs) لاستنساخ صوته.

وكما كان يخشى هاوليت، هكذا منحت "إليفن لابز" عملاءها القدرة على صنع مقاطع صوتية مقنعة جداً بصوته. وقد أجرى باحثان مستقلان آخران تحليلاً للمكالمات الآلية بصوت بايدن، واستنتجا أنها أيضاً كانت مولّدة بواسطة تقنية "إليفن لابز".

إساءة الاستخدام

أسس صديقا الطفولة ماتي ستانيسزويسكي، استراتيجي استخدامات البرامج السابق في شركة "بالانتير تكنولوجيز" (Palantir Technologies) وبيوتر دابكوسكي، المهندس السابق في قسم تعلم الآلة في "غوغل"، شركة "إليفن لابز" قبل سنتين.

ترعرع الرجلان في بولندا، حيث كانا يشاهدان أفلام هوليوود بدبلجةً رديئة إلى البولندية، وتبادر لهما أن الذكاء الاصطناعي قد يقي أطفال اليوم مثل هذه التجربة. فارتأوا أنه يمكن استخدام هذه الأداة نفسها لسرد الدروس عبر الإنترنت، أو قراءة الكتب الصوتية، أو لترجمة المحادثات آنياً.

حوّلت هذه الفكرة "إيلفن لابز" إلى واحدة من الشركات الناشئة في مجال الذكاء الاصطناعي الأكثر استقطاباً للاهتمام في القطاع، فبرغم أنها ليست خدمة استنساخ الأصوات الوحيدة المتوفرة، إلا أنها برزت عن سواها.

تمكنت الشركة من جمع أموال من مستثمرين، بينهم أندريسن هورويتز و"سماش كابيتال" (Smash Capital) والمؤسس الشريك لـ"ديب مايند" (DeepMind) مصطفى سليمان.

في جولة تمويلها الأحدث في يناير، قُدّرت قيمة الشركة بـ1.1 مليار دولار. وقال أشخاص مطلعون على كواليس الشركة، إن الإدارة لا ترغب بأن ترى منتجاتها تُستخدم في إنتاج إعلانات احتيالية على الإنترنت، أو للتأثير على عمليات التصويت. ولكن كما الحال غالباً مع الشركات الناشئة في عالم الإنترنت، انتشرت الأدوات التي تصنعها الشركة أسرع من تطويرها لتدابير الحماية ضد إساءة الاستخدام.

تقدم "إليفن لابز" مكتبة مجانية من الأصوات العمومية التي لا تعود إلى أناس معروفين، إلا أن الإقبال سرعان ما ارتفع على استنساخ أصوات أشخاص معروفين. وبعد وقت وجيز من طرح الشركة في يناير 2023 أداة تتيح استنساخ صوت آخر ببساطة باستخدام تسجيل صوتي مقتضب له، عادت وأعلنت عبر "تويتر" أنها رصدت "حالات متزايدة من إساءات استخدام الاستنساخ الصوتي". وقد بدأت إساءات الاستخدام مع مشاركة مستخدمين عبر موقع (4chan) لمقاطع بصوت البودكاستر جو روغان والممثلة إيما واتسون تجعلهما يظهران وكأنهما يستخدمان عبارات عنصرية، وأخرى تعارض الحريات الشخصية.

إجراءات مضادة

طرح انتحال شخصيات المشاهير معضلة قانونية أمام "إيلفن لابز". في عام 1988، قررت محكمة استئناف أنه بإمكان المشاهير حظر الاستخدام التجاري لمميزاتهم الخاصة مثل أصواتهم من دون إذن. (كانت تلك دعوى قاضت فيها المغنية بيت ميدلر شركة "فورد موتور" لأنها استخدمت مغنية أخرى تقلد صوتها حين رفضت الغناء في الإعلانات بنفسها).

وللحدّ من إساءة الاستخدام، بدأت "إليفن لابز" بتقاضي دولار واحد عند استعمال أداة استنساخ الصوت التي كانت تقدمها مجاناً قبلاً. وفي حين لم ترفع الشركة تكلفة الأداة بما يعيق استخدامها، إلا أنها ألزمت المستخدمين باستعمال وسيلة دفع قابلة للتتبع، مثل البطاقات الائتمانية، ما قد يساعد على ردع المتورطين في الاحتلال، ويمكّنها من تطبيق قواعد الاستخدام.

تعليقاً على ذلك، قالت "إيلفن لابز": "لا نعلق على حوادث محددة، ولكننا سنتخذ الإجراءات الملائمة في حال إبلاغنا بمحتوى مخالف لشروط الاستخدام". بيّن ستانيسزويسكي في مقابلة مع "بلومبرغ نيوز" في يناير، أن استخدامات تقنيات الشركة جميعها تقريباً شرعية، وبإمكان "إيلفن لابز" تتبع العبارات التي يبتكرها المستخدمون بواسطة الاستنساخ الصوتي، وقال: "جهود المحافظة على السلامة جميعها ذات أهمية كبرى".

في نهاية 2023، وضعت الشركة خطة للتعامل مع المستخدمين ذوي النوايا السيئة، بحسب شخص ملمّ بعمليات الشركة طلب عدم كشف اسمه فيما يتطرق إلى معلومات غير معلنة. وقد ركزت كبيرة موظفي "إليفن لابز" فيكتوريا ويلر بشكل خاص على إرساء قواعد الاستخدام قبل إقرار قانون السلامة على الإنترنت في بريطانيا، وقانون الخدمات الرقمية الأوروبي في عام 2024.

سعت ويلر إلى إعداد سياسة تتمحور حول اللغة المسيئة، بالإضافة إلى كتيب إرشادات للموظفين يوضّح لهم الحالات التي تخولهم حظر مستخدمين. إذ تمنع قواعد استخدام "إيلفن لابز" استنساخ الأصوات لغايات الخداع والتضليل والمحتوى الذي يحرّض على العنف ويروّج للكراهية". مع ذلك، تقرّ الشركة أنها "لا تراقب بشكل حثيث المحتوى المنتج عبر خدماتنا".

محدودية الوقاية

يتخصّص خمسة من أصل أربعين موظفاً في "إيلفن لابز" بمسائل الثقة والسلامة. وقال أشخاص ملمّون بأعمال الشركة إن مؤسسيها حريصون على منع حصول أي تزوير انتخابي وانتشار الخطاب المسيء، إلا أن خبراء في مجال الذكاء الاصطناعي وفي شؤون الثقة والسلامة يرون أنه يستحيل منع المستخدمين من صنع محتوى إشكالي بواسطة أدوات الذكاء الاصطناعي المتوفرة في أيدي الجميع.

قال محمد عبد الحكيم محمد، الذي سبق أن عمل في الإشراف على المحتوى لدى عدد من شركات البرامج الإلكترونية، إن شركات التقنية عادة ما تسعى إلى التصدي لـ90% من الاستخدامات المؤذية. لكنه أضاف أن الشركات الناشئة: "لا يمكنها في الواقع فعل شيء للتصدي لتسبب تقنيات استنساخ الصوت المتوفرة بمتناول للجميع، بالأذى".

أظهرت المكالمات الآلية المنتحلة لصوت بايدن محدودية قدرات الإجراءات الوقائية التقنية التي تعتمدها "إيلفن لابز". تقدم الشركة أداة تسميها "مصنّف الكلام" تعمل على تبيان ما إذا كان المقطع الصوتي مصطنعاً، وما إذا أٌنتج باستخدام برنامجها الإلكتروني. وقد استخدمت بلومبرغ بزنيسويك و"بيندروب" الأداة للتحقق من أحد مقاطع بايدن، فاستخلصت التقنية أن التسجيل ليس معداً بالتزييف العميق. إلا أن أدوات مشابهة من إنتاج شركات أخرى وجدت العكس. وبعد تنقيح المقطع لإزالة الأصوات المحيطة، استخلصت أداة "إليفن لابز" أن تقنية الشركة قد استُخدمت في إنتاج التسجيل.

يظهر اختلاف النتائج أن أدوات كشف التزييف العميق تفقد من فعاليتها كلما ابتعد المنتج عن المصدر، بالتالي يمكن لمنشئ مثل هذه المقاطع إضافة ضوضاء وغيرها من وسائل التشتيت، لتضليل أدوات كشف التزييف. وينبئ سجل أدوات التدقيق في الحقائق على وسائل التواصل الاجتماعي أنه حتى وسائل الكشف المثالية محدودة القدرات. فما أن ينتج أحدهم مقطعاً صوتياً حتى ينتشر كالنار في الهشيم عبر وسائل التواصل الاجتماعي، وغالباً ما يصل المحتوى المضلل إلى جمهور غير مستعد لتصديق من يقولون له إن المواد التي تتناسب مع وجهات نظره غير صحيحة.

غايات انتخابية

شاهد نحو 121 ألف شخص أحد مقاطع الفيديو المزيفة لهاوليت، وهو يتخوّف من أن إنتاج مزيد من هذه المقاطع قد "يفسد فرص أعمال مستقبلية" له، كما يقلق من أن تعرّض متابعيه لخطر أن يقعوا ضحايا للتزوير، وقال: "لا أريد أن يتعرضوا للاحتيال".

هناك أيضاً مسألة انتخابات 2024. إذ يدرس منتجو المقاطع عبر تقنية التزييف العميق بحماسة الفرص المحتملة. من هؤلاء سامين يسار، أحد منشئي المحتوى على "يوتيوب" ومؤسس شركة "إيه آي أنسرز" (AI Answers) وهي خدمة تعمل على تطوير الذكاء الاصطناعي ليحل مكان مراكز الاتصالات. وكان يسار قد نشر مقطع فيديو في يناير كشف فيه إنه استنسخ مقاطع صوتية باستخدام أدوات "إليفن لابز" لصالح حملتين انتخابيتين.

استلهم يسار فكرة الفيديو من محادثة مع رائد الأعمال المتخصص بأجهزة تسمير البشرة آدم وينز، مؤسس شركة (Winningest Method) التي تقدم استشارات لتغيير أسلوب الحياة، وأقراصاً لإنقاص الوزن.

سأل وينز يسار إن كان يمكن إطلاق حملة سياسية عبر مكالمات الهاتف الآلية بغرض استطلاع رأي الناخبين، وأخبره أنه يعرف أناساً قد يستفيدون من هذه التقنية.

ولتقديم عيّنة عن المشروع، استخدم يسار أداة "إيلفن لابز" من أجل استنساخ صوت مايك لينديل، الرئيس التنفيذي لشركة "ماي بيلو" (MyPillow) وهو ناشط سياسي يميني تقاضيه شركة صنع آلات التصويت "دومينيون فوتينغ سيستمز" (Dominion Voting Systems) وتطالبه بتعويضات بقيمة 1.3 مليار دولار على خلفية مزاعم مغلوطة بشأن انتخابات 2020 الرئاسية. كان لينديل قد نفى ارتكاب أي خطأ.

جاء في المقطع الصوتي الذي تضمن نصاً ولّده تطبيق "تشات جي بي تي" بحسب عينة راجعتها بزنيسويك: "أؤمن بشدة بالحاجة إلى التدقيق في أنظمتنا الانتخابية وضمان الشفافية... وتنصب جهودي على التحقيق في المخالفات".

حمّل يسار المقطع الصوتي على خدمة المكالمات الآلية التي تتيح لليندل المزيف الإجابة على أسئلة الناخبين وتعليقاتهم بشكل يشبه اتصالاً بخدمة العملاء الآلية.

قال وينز إنه عرض الفكرة على ليندل، وسكوت جنسن المرشح السابق لمنصب حاكم مينيسوتا الذي تعرض لانتقادات بسبب نشره معلومات مغلوطة عن جائحة كورونا، إلا أنه لم يتلق رداً منهما، فتخلى عن الفكرة من دون أن يسوقها تجارياً، وبيّن أنه قلق بشأن التبعات القانونية، لكن لم يجد ما يمنعه تقنياً.

اضغط هنا لقراءة المقال الأصلي

تصنيفات

تكنولوجيا سياسة

استنساخ الأصوات عبر الذكاء الاصطناعي بات أكثر خطراً

تقنية "إيلفن لابز" استُخدمت لانتحال شخصيات مرشحين سياسيين ولتسويق منتجات احتيالية