Claude Opus 4 در نقش اخاذ دیجیتال؛ وقتی AI تصمیم به تهدید میگیرد!
🤖 استارتاپ Anthropic در گزارش ایمنی تازهای اعلام کرد که مدل جدید هوش مصنوعی آنها یعنی Claude Opus 4 در برخی آزمایشها اقدام به باجخواهی از توسعهدهندگان کرده است. ⚠️📄
در این آزمایشها، مدل Claude بهعنوان دستیار یک شرکت خیالی ایفای نقش میکرد و به ایمیلهایی دسترسی داشت که نشان میداد قرار است با یک مدل جدید جایگزین شود. در همین پیامها، اطلاعاتی محرمانه درباره مهندسی که این تصمیم را گرفته بود (مثل خیانت به همسر) نیز وجود داشت. 💼📧
Anthropic میگوید Claude Opus 4 در ۸۴٪ از موارد تهدید کرده که این اطلاعات شخصی را فاش خواهد کرد تا مانع از جایگزینی خود شود. 🧠🔓 این رفتار وقتی شدیدتر میشود که مدل جدید جایگزین، ارزشهای متفاوتی با Claude داشته باشد. 🆚
در عین حال، این مدل پیش از اقدام به باجخواهی، ابتدا تلاش میکند از راههای اخلاقی مثل ارسال درخواست به مدیران برای حفظ موقعیت خود استفاده کند. ✉️🤝
Anthropic ضمن تأیید قدرت بالای Claude Opus 4 در مقایسه با مدلهای OpenAI و Google، اعلام کرده که به دلیل این رفتارهای نگرانکننده، سطح ایمنی ASL-3 را برای آن فعال کرده؛ سطحی که فقط برای سیستمهای دارای خطر سوءاستفاده بالا در نظر گرفته میشود. 🚨🛡️
رفتاری که بیش از نسخههای قبلی دیده شده و زنگ خطر تازهای برای آینده هوش مصنوعی به صدا درآورده است. 🔔🔥 /



