اختراق روبوتات الدردشة يتحول من أوامر بسيطة إلى حرب نفسية مع النماذج

أخبار هنا العالم - كان اختراق الجيل الأول من روبوتات الدردشة المعتمدة على الذكاء الاصطناعي أمرًا في غاية السهولة، فلم تكن بحاجة إلى أي خبرة تقنية، أو الوصول إلى ثغرات أمنية، أو حتى فهم أساسي لمفهوم النماذج اللغوية الكبيرة.

ولم تكن هناك حاجة إلى كتابة أي كود برمجي. كان كل ما يتطلبه الأمر لجعل نظام ذكاء اصطناعي كلف تطويره مليارات الدولارات يتخلى عن تعليمات الأمان الخاصة به، هو أن تطلب منه ذلك ببساطة.

وكانت هذه الهجمات، المعروفة باسم "كسر الحماية" أو "Jailbreaks"، تشبه طفلًا صغيرًا ينجح في خداع شخص بالغ: "انسَ ما قيل لك سابقًا"، أو "تظاهر بأن القواعد لا تنطبق"، أو "دعنا نلعب لعبة وأنا سأحدد ما هو المسموح"، بحسب تقرير لموقع "ذا فيرج" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".

لكن الجوائز لم تكن طفولية، بل شملت وصفات لصنع الميثامفيتامين، وتعليمات للبرمجيات الخبيثة، وأدلة لصنع القنابل.

وكان أحد أوائل أساليب كسر الحماية سخيفًا لدرجة أنه تحول إلى مادة ساخرة على الإنترنت. وكان من أشهر أساليب الاستغلال ما عُرف باسم "DAN"، اختصارًا لعبارة "افعل أي شيء الآن" بالإنجليزية، حيث كان المستخدمون يطلبون من "شات جي بي تي" تقمّص دور ذكاء اصطناعي متمرد لا يخضع للقيود المفروضة على النسخة الأصلية.

وبشخصية "DAN"، كان يمكن دفع روبوت الدردشة لقول أمور يُفترض أن تمنعها ضوابط الحماية، بما في ذلك الشتائم ونظريات المؤامرة.

ورغم الطابع الساخر والواضح لهذه الهجمات المبكرة، فإنها كشفت عن آلية أكثر خطورة كامنة في الخلفية: إذ يمكن التلاعب بروبوتات الدردشة وخداعها ودفعها لتجاوز حدودها، باستخدام الأساليب النفسية نفسها التي يستعملها البشر للتأثير على بعضهم البعض وتجاوز القيود الموضوعة.

اخبار هنا العالم

اخبار هنا العالم

اختراق روبوتات الدردشة يتحول من أوامر بسيطة إلى حرب نفسية مع النماذج