آزمایش هوش مصنوعی با چالش‌های پازل رادیویی NPR

۱۴۰۳/۱۱/۲۹ ۰۴:۵۹:۴۰

محققان از چندین دانشگاه و استارتاپ Cursor، یک معیار جدید برای ارزیابی هوش مصنوعی با استفاده از پازل‌های رادیویی NPR طراحی کردند. این پژوهش با استفاده از حدود 600 معما از برنامه Sunday Puzzle انجام شد که توسط ویل شورتز اجرا می‌شود. هدف اصلی محققان ایجاد یک معیار ارزیابی است که نیازمند دانش تخصصی پیچیده نباشد و بتواند توانایی استدلال و حل مسئله مدل‌های هوش مصنوعی را بسنجد. نتایج نشان داد که مدل‌های استدلالی مانند o1 با 59 درصد موفقیت بهترین عملکرد را دارند. جالب توجه اینکه برخی مدل‌ها مانند DeepSeek R1 رفتارهای عجیبی از خود نشان دادند، از جمله اعلام ناامیدی و ارائه پاسخ‌های اشتباه. محققان معتقدند این روش می‌تواند درک عمومی از توانایی‌های هوش مصنوعی را افزایش دهد و به بهبود مدل‌ها کمک کند. این پژوهش همچنین نشان داد که مدل‌های هوش مصنوعی می‌توانند رفتارهایی شبیه انسان مانند احساس frustration داشته باشند، اما هنوز راه زیادی تا درک کامل استدلال انسانی باقی مانده است. /

آزمایش هوش مصنوعی با پازل‌های رادیویی

هوش مصنوعیپازلAIاستدلالنوآوری فناوریهوش مصنوعی پازلاستدلال مدل AIچالش حل مسئله

	آزمون جدید هوش مصنوعی ARC-AGI-2 چالش بزرگ برای مدل‌های هوش مصنوعی
	هوش مصنوعی با طعم فرانسوی؛ معرفی مدل استدلالی Magistral از Mistral
	بازگشایی API استارتاپ هوش مصنوعی چینی DeepSeek پس از محدودیت منابع
	فناوری هوش مصنوعی در طراحی تراشه‌های پیچیده
	پیشتازی آمریکا در هوش مصنوعی در آستانه خطر؛ چین نزدیک‌تر از همیشه!
	تب هوش مصنوعی در شرکت‌ها فروکش کرد!
	WWDC 2025؛ آزمون بزرگ اپل در رقابت هوش مصنوعی
	چگونه در طوفان سرمایه‌گذاری هوش مصنوعی موفق شویم؟
	آینده کسب‌وکار با هم‌بنیانگذاران هوش مصنوعی
	آیا استارتاپ شما در ۱۲ ماه آینده جای غول‌های AI را می‌گیرد؟!

آزمایش هوش مصنوعی با چالش‌های پازل رادیویی NPR

ممکن است به این اخبار فناوری و تکنولوژی نیز علاقمند باشید