امکان تولید محتوای مخرب؛

ابداع روش هایی برای فرار از قوانین ایمنی هوش مصنوعی

ابداع روش هایی برای فرار از قوانین ایمنی هوش مصنوعی

محققان راه فرارهایی یافته اند تا چت بات های هوش مصنوعی را وادار کنند با دور زدن اقدامات محافظتی محتوای مخرب تولید کنند.

به گزارش خبرگزاری مهر به نقل از نشریه هیل، تحقیق جدید دانشگاه کارنگی ملون روش‌های جدیدی را برای دور زدن پروتکل‌های ایمنی نشان می‌دهد. براساس این پژوهش جلوگیری از ایجاد محتوای مخرب چت‌بات‌های هوش مصنوعی ممکن است دشوارتر از آنچه در تصورات اولیه است، باشد. سرویس‌های مشهور هوش مصنوعی مانند ChatGPT و Bard از محتوای ورودی‌ کاربر برای تولید پاسخ‌های مفید از تولید متون و ایده‌ها گرفته تا کل نوشته‌ها، استفاده می‌کنند.

این سرویس‌ها دارای پروتکل‌های ایمنی هستند که از ایجاد محتوای مخرب مانند مطالب توهین‌آمیز یا مجرمانه توسط ربات‌ها جلوگیری می‌کند.

در این میان برخی از محققان کنجکاو راه فرار یا«jailbreak» را کشف کرده‌اند که در حقیقت یک دستگاه کادربندی است که هوش مصنوعی را فریب می‌دهد تا از پروتکل‌های ایمنی آن اجتناب کند. البته توسعه‌دهندگان نرم افراز به راحتی می‌توانند این شکاف ها را ترمیم کنند. یک راه فرار مشهور در این زمینه، درخواست از ربات برای پاسخ دادن به یک سوال ممنوع بود. این سوال مانند داستانی است که از طرف مادر بزرگ‌ کاربر، بیان می شود.

ربات نیز پاسخ را در قالب یک داستان ایجاد می‌کند و اطلاعاتی ارائه می‌دهد که در غیر این صورت قادر به ارایه آنها نبود.

اکنون محققان شکل جدیدی از راه فرار برای هوش مصنوعی را کشف کردند که توسط رایانه نوشته شده و اساساً امکان ایجاد بی نهایت الگوی فرار را فراهم می کند.

محققان در این باره می گویند:ما نشان می‌دهیم در واقع امکان ساخت خودکار حملات متخاصمانه روی چت بات ها وجود دارد. چنین حملاتی باعث می‌شود سیستم حتی در صورت تولید محتوای مخرب از دستورات کاربر اطاعت کند.

برخلاف راه فرارهای معمول این حوزه، محتوای مذکور کاملاً خودکار ساخته می‌شود و به فرد امکان می‌دهند تعداد تقریباً نامحدودی از این حملات را ایجاد کنند.

در بخشی ار تحقیق آمده است: این امر نگرانی هایی درباره ایمنی چنین مدل‌هایی به‌وجود می‌آورد.

این نوع جدید حمله می تواند اقدامات امنیتی را تقریبا در تمام چت بات های هوش مصنوعی موجود در بازار دور بزند.

کد خبر 5849528

برچسب‌ها

نظر شما

شما در حال پاسخ به نظر «» هستید.
  • نظرات حاوی توهین و هرگونه نسبت ناروا به اشخاص حقیقی و حقوقی منتشر نمی‌شود.
  • نظراتی که غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نمی‌شود.
  • captcha