تستهای سنجش هوش مصنوعی بیشتر شبیه تبلیغاند تا واقعیت
مطالعهای تازه از مؤسسه اینترنت آکسفورد به بررسی اعتبار ابزارهای سنجش هوش مصنوعی پرداخته و نشان میدهد که این ابزارها معمولاً غیرقابل اعتماد و گمراهکننده هستند. 🔬 محققان 445 آزمون مختلف را تحلیل کردهاند و به این نتیجه رسیدهاند که بسیاری از آزمونهای استاندارد نمیتوانند تواناییهای واقعی مدلهای هوش مصنوعی را بهروشنی اندازهگیری کنند.
به عنوان مثال، آزمون Grade School Math 8K در بررسی استدلال ریاضی، نمیتواند بهدرستی نشان دهد که آیا یک مدل واقعاً توانایی استدلال دارد یا خیر. 📉 علیرغم احتمال افزایش نمرات این آزمونها بهبود در عملکرد مدلها، ممکن است این نتایج متاثر از آلودگی داده یا حفظ اطلاعات باشد.
این تحقیق، همچنان یادآور این نکته است که سنجشهای هوش مصنوعی باید با احتیاط بیشتری انجام شوند و تفاوتهای کیفیتی میان آزمونها باید بهدقت بررسی شوند. ⚖️ این نتایج میتواند برای توسعهدهندگان و سیاستگذاران در حوزه هوش مصنوعی بسیار حائز اهمیت باشد. /



