آزمایش هوش مصنوعی با چالشهای پازل رادیویی NPR
محققان از چندین دانشگاه و استارتاپ Cursor، یک معیار جدید برای ارزیابی هوش مصنوعی با استفاده از پازلهای رادیویی NPR طراحی کردند. این پژوهش با استفاده از حدود 600 معما از برنامه Sunday Puzzle انجام شد که توسط ویل شورتز اجرا میشود. هدف اصلی محققان ایجاد یک معیار ارزیابی است که نیازمند دانش تخصصی پیچیده نباشد و بتواند توانایی استدلال و حل مسئله مدلهای هوش مصنوعی را بسنجد. نتایج نشان داد که مدلهای استدلالی مانند o1 با 59 درصد موفقیت بهترین عملکرد را دارند. جالب توجه اینکه برخی مدلها مانند DeepSeek R1 رفتارهای عجیبی از خود نشان دادند، از جمله اعلام ناامیدی و ارائه پاسخهای اشتباه. محققان معتقدند این روش میتواند درک عمومی از تواناییهای هوش مصنوعی را افزایش دهد و به بهبود مدلها کمک کند. این پژوهش همچنین نشان داد که مدلهای هوش مصنوعی میتوانند رفتارهایی شبیه انسان مانند احساس frustration داشته باشند، اما هنوز راه زیادی تا درک کامل استدلال انسانی باقی مانده است. /



