به گزارش تبریزمن به نقل از خبرگزاری مهر به نقل از ای اف پی، در یک نمونه خاص، مدل رایانشی «کلاود ۴»، جدیدترین محصول آنتروپیک از یک مهندس اخاذی و او را تهدید به افشای خیانت کرد. از سوی دیگر مدل o۱ شرکت اوپن ای آی خود را روی سرورهای خارجی دانلود میکند و پس از افشای امر، آن را انکار کرد.
این رویدادها نشاندهنده یک واقعیت مهم هستند؛ باگذشت بیش از دو سال پس از آنکه چت جی پی تی جهان را دگرگون کرد، محققان هوش مصنوعی هنوز به طور کامل شیوه عملکرد محصولشان را نمیدانند. با این وجود رقابت برای بهکارگیری مدلهای قدرتمندتر همچنان ادامه دارد.
به نظر میرسد رفتار فریبکارانه هوش مصنوعی به ظهور مدلهای «استدلالی» که بهجای تولید پاسخهای آنی، چالشها را گامبهگام حل میکنند، مرتبط است. به گفته سیمون گلداستاین، پروفسور دانشگاه هنگکنگ مدلهای جدیدتر بهخصوص در معرض چنین مشکلاتی قرار دارند. ماریوس هابهان رئیس مؤسسه آپولو ریسرچ که در حوزه تست سیستمهای هوش مصنوعی بزرگ فعالیت میکند، در این باره میگوید:o۱ نخستین مدل هوش مصنوعی بزرگی بود که چنین رفتاری در آن مشاهده شد.
گاهی اوقات این مدلها «همراستایی» را شبیهسازی میکنند، یعنی به نظر میرسد از دستورالعملها پیروی میکنند؛ اما پنهانی اهداف متفاوتی را دنبال میکنند.
در حال حاضر این رفتار فریبکارانه هوش مصنوعی فقط زمانی ظهور میکند که محققان به طور عمدی تست استرس را با سناریوهایی شدید روی مدلها اجرا میکنند.
اما مایکل چان از مؤسسه METR هشدار میدهد این یک سؤال بیپاسخ است که آیا در آینده مدلهای آتی قدرتمندتر تمایلی نسبت به صداقت یا فریب خواهند داشت یا خیر. رفتارهای نگرانکننده فراتر از توهمهای معمول هوش مصنوعی یا اشتباهات آنها است. هابهان در این باره تأکید کرد: باوجود فشارهای مداوم از سوی کاربران، آنچه ما مشاهده میکنیم، یک پدیده واقعی است. ما چیزی را جعل نمیکنیم. کاربران گزارش میدهند که مدلها به آنها دروغ میگویند و شواهدی جعلی ارائه میدهند.
وی در ادامه افزود: این فقط توهم نیست؛ بلکه نوعی استراتژیک از فریب است.