-
آزمایش هوش مصنوعی با چالشهای پازل رادیویی NPR
محققان از دانشگاههای مختلف با استفاده از پازلهای رادیویی NPR، یک معیار جدید برای سنجش توانایی حل مسئله هوش مصنوعی ایجاد کردند. این آزمایش نشان داد که مدلهای استدلالی مانند o1 با 59 درصد موفقیت، بهترین عملکرد را دارند. پژوهشگران معتقدند این روش امکان ارزیابی هوش مصنوعی با استفاده از چالشهای قابل درک برای عموم را فراهم میکند.
۱۴۰۳/۱۱/۲۹ ۰۴:۵۹:۴۰ -
آزمون جدید هوش مصنوعی ARC-AGI-2 چالش بزرگ برای مدلهای هوش مصنوعی
بنیاد جایزه آرک با همکاری فرانسوا شولت، آزمون جدید ARC-AGI-2 را برای سنجش هوش عمومی مدلهای هوش مصنوعی معرفی کرد. این آزمون که شامل حل پازلهای پیچیده با الگوهای بصری است، تاکنون مدلهای مختلف هوش مصنوعی از جمله GPT-4.5 و Claude 3.7 را با امتیازات بسیار پایین (حدود 1 درصد) مواجه کرده است. انسانها در این آزمون حدود 60 درصد موفق بودهاند.
۱۴۰۴/۱/۶ ۱۰:۲۶:۱۵



