• آزمایش هوش مصنوعی با چالش‌های پازل رادیویی NPR

    محققان از دانشگاه‌های مختلف با استفاده از پازل‌های رادیویی NPR، یک معیار جدید برای سنجش توانایی حل مسئله هوش مصنوعی ایجاد کردند. این آزمایش نشان داد که مدل‌های استدلالی مانند o1 با 59 درصد موفقیت، بهترین عملکرد را دارند. پژوهشگران معتقدند این روش امکان ارزیابی هوش مصنوعی با استفاده از چالش‌های قابل درک برای عموم را فراهم می‌کند.

    ۱۴۰۳/۱۱/۲۹ ۰۴:۵۹:۴۰
  • آزمون جدید هوش مصنوعی ARC-AGI-2 چالش بزرگ برای مدل‌های هوش مصنوعی

    بنیاد جایزه آرک با همکاری فرانسوا شولت، آزمون جدید ARC-AGI-2 را برای سنجش هوش عمومی مدل‌های هوش مصنوعی معرفی کرد. این آزمون که شامل حل پازل‌های پیچیده با الگوهای بصری است، تاکنون مدل‌های مختلف هوش مصنوعی از جمله GPT-4.5 و Claude 3.7 را با امتیازات بسیار پایین (حدود 1 درصد) مواجه کرده است. انسان‌ها در این آزمون حدود 60 درصد موفق بوده‌اند.

    ۱۴۰۴/۱/۶ ۱۰:۲۶:۱۵