آزمایش هوش مصنوعی با چالش‌های پازل رادیویی NPR

۱۴۰۳/۱۱/۲۹ ۰۴:۵۹:۴۰

محققان از چندین دانشگاه و استارتاپ Cursor، یک معیار جدید برای ارزیابی هوش مصنوعی با استفاده از پازل‌های رادیویی NPR طراحی کردند. این پژوهش با استفاده از حدود 600 معما از برنامه Sunday Puzzle انجام شد که توسط ویل شورتز اجرا می‌شود. هدف اصلی محققان ایجاد یک معیار ارزیابی است که نیازمند دانش تخصصی پیچیده نباشد و بتواند توانایی استدلال و حل مسئله مدل‌های هوش مصنوعی را بسنجد. نتایج نشان داد که مدل‌های استدلالی مانند o1 با 59 درصد موفقیت بهترین عملکرد را دارند. جالب توجه اینکه برخی مدل‌ها مانند DeepSeek R1 رفتارهای عجیبی از خود نشان دادند، از جمله اعلام ناامیدی و ارائه پاسخ‌های اشتباه. محققان معتقدند این روش می‌تواند درک عمومی از توانایی‌های هوش مصنوعی را افزایش دهد و به بهبود مدل‌ها کمک کند. این پژوهش همچنین نشان داد که مدل‌های هوش مصنوعی می‌توانند رفتارهایی شبیه انسان مانند احساس frustration داشته باشند، اما هنوز راه زیادی تا درک کامل استدلال انسانی باقی مانده است. /

© 2025 Copyright - All Rights Reserved By ecofori.ir