-
تستهای سنجش هوش مصنوعی بیشتر شبیه تبلیغاند تا واقعیت
یک پژوهش جدید از مؤسسه اینترنت آکسفورد نشان میدهد بسیاری از آزمونهایی که برای سنجش عملکرد هوش مصنوعی استفاده میشوند، نتایج دقیقی ارائه نمیدهند و گمراهکنندهاند. 🤖
محققان ۴۴۵ تست مختلف را بررسی کردند و دریافتند اغلب آنها تعریف روشنی از مهارت مورد ارزیابی ندارند و روش آماری قابل اعتماد برای مقایسه مدلها ارائه نمیکنند. به گفته پژوهشگران، بسیاری از این آزمونها در واقع توانایی واقعی مدل را نمیسنجند، بلکه فقط نشان میدهند که مدل پاسخ درست را حفظ کرده است. 📊
برای مثال، آزمون GSM8K که قرار است استدلال ریاضی مدلها را بسنجد، ممکن است صرفاً حافظه آنها را آزمایش کند. در آزمایشهای جدید، وقتی سؤالات تازه مطرح شد، عملکرد مدلها بهشدت کاهش یافت. 📉
این تحقیق هشدار میدهد که نتایج تستها معیار مطمئنی برای سنجش «هوش واقعی» مدلها نیست و شرکتها گاهی از آنها برای تبلیغ بیش از اندازه استفاده میکنند. 🧠۱۴۰۴/۸/۲۱ ۰۱:۱۲:۳۴ -
معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف
OpenAI تستی به نام GDPval معرفی کرده که نشان میدهد مدلهای هوش مصنوعی در بعضی مشاغل به سطح متخصصان نزدیک شدهاند. این تست در ۹ صنعت اصلی آمریکا مثل سلامت، مالی و تولید انجام شد و ۴۴ شغل مختلف را پوشش داد. 📊🤖
نتایج نشان داد GPT-5 در ۴۰٪ موارد و مدل Claude شرکت آنتروپیک در ۴۹٪ موارد عملکردی همسطح یا بهتر از انسان داشتند. البته این تست فقط بخش کوچکی از کار واقعی مشاغل را بررسی میکند. 📈🧑💼
OpenAI میگوید این پیشرفت به افراد کمک میکند بخشی از کارشان را به هوش مصنوعی بسپارند و وقت بیشتری برای کارهای مهمتر داشته باشند. مقایسهها هم نشان میدهد GPT-4 تنها ۱۳.۷٪ موفقیت داشت، در حالی که GPT-5 به حدود ۴۰٪ رسیده است؛ یعنی تقریباً سه برابر بهتر عمل کرده است. 🚀💡۱۴۰۴/۷/۵ ۰۰:۵۹:۴۵ -
تحول در سنجش کیفیت اینترنت با ابزار جدید Orb
📶📉📊 اپلیکیشن جدید Orb، ساخته بنیانگذار Speedtest، دیگر فقط سرعت اینترنت را نمیسنجد، بلکه با بررسی نوسان، تأخیر، و خطای اتصال، وضعیت واقعی اینترنت را نمایش میدهد.
با یک امتیاز ساده، پایداری اینترنتتان را بسنجید و در صورت ضعف، راهکارهای دقیق دریافت کنید.
این ابزار روی سیستمعاملهای مختلف قابل نصب است، رایگان بوده و توسط متخصصان بزرگی از Netflix و Fastly حمایت شده است.
https://orb.net
🔍📡🧠۱۴۰۴/۲/۱۲ ۱۲:۵۶:۲۷ -
ارزیابی مردمی هوش مصنوعی زیر سوال رفت
پلتفرمهایی مثل Chatbot Arena که با کمک کاربران به ارزیابی مدلهای هوش مصنوعی میپردازند، با وجود محبوبیت زیاد، از دید برخی متخصصان دقت و اعتبار لازم را ندارند. این ارزیابیها بر اساس رأی کاربران است که ممکن است مبنای علمی یا مشخصی نداشته باشد. برخی پژوهشگران میگویند شرکتها گاهی با هدف تبلیغات، مدلهایی را برای این رقابتها بهینه میکنند، اما نسخهای ضعیفتر را منتشر میکنند. همچنین، عدهای معتقدند ارزیابی باید توسط نهادهای مستقل، تخصصی و با جبران مالی مناسب انجام شود. گرچه این روش مشارکتی مزایایی مثل تنوع دیدگاه دارد، اما نباید تنها معیار سنجش کیفیت مدلها باشد. مسئولان Chatbot Arena نیز میگویند هدفشان ارائه فضای باز و شفاف است و در حال اصلاح سیاستهای خود برای جلوگیری از سوءاستفاده هستند.
۱۴۰۴/۲/۳ ۱۷:۱۱:۱۳ -
رقابت مدلهای هوش مصنوعی در بازی پوکمون؛ آیا نتایج قابل اعتمادند؟
جدیدترین جنجال دنیای هوش مصنوعی به بازی معروف «پوکمون» رسیده است. برخی ادعا میکنند مدل «جمینی» از گوگل در اجرای این بازی از مدل «کلود» شرکت Anthropic جلو زده و مراحل بیشتری را طی کرده است. اما کاربران متوجه شدهاند که جمینی با کمک یک نقشه سفارشی طراحیشده توسط توسعهدهندهاش بازی میکند؛ چیزی که به آن کمک میکند تصمیمهای دقیقتری بگیرد.
بنابراین نحوه اجرای این مدلها و ابزارهای کمکی که استفاده میکنند، میتواند نتایج را کاملاً تغییر دهد. همین موضوع در آزمونهای دیگر هم دیده شده؛ مثلاً مدل Claude 3.7 وقتی با ابزار خاص اجرا شده، عملکرد بهتری نسبت به حالت عادی داشته است. همین اتفاق برای مدل Llama 4 از متا هم افتاده است.
بنابراین مقایسه دقیق و منصفانه مدلهای هوش مصنوعی بهدلیل تفاوت در روش اجرا، سختتر از قبل شده است؛ حتی اگر محل رقابت، یک بازی کودکانه مثل پوکمون باشد.۱۴۰۴/۱/۲۷ ۰۲:۳۰:۲۳ -
اقدام جدید OpenAI برای طراحی آزمونهای واقعیتر جهت سنجش هوش مصنوعی
شرکت OpenAI اعلام کرده که سیستمهای فعلی سنجش عملکرد مدلهای هوش مصنوعی ناکارآمد هستند و قصد دارد با راهاندازی برنامهای به نام Pioneers، آزمونهایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
در این برنامه، شرکتهایی در حوزههایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری میکنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار میکند، نه فقط در حل مسائل دانشگاهی یا رقابتی.
هدف نهایی، ایجاد آزمونهایی است که واقعبینانهتر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمونها با همکاری خود OpenAI طراحی میشوند، بیطرفی آنها زیر سوال برود.۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴ -
معیاری جدید برای سنجش سرعت پردازش هوش مصنوعی
یک گروه تحقیقاتی به نام MLCommons دو معیار جدید برای سنجش سرعت اجرای برنامههای هوش مصنوعی معرفی کرد. این معیارها مشخص میکنند که سختافزارها و نرمافزارهای پیشرفته چقدر سریع میتوانند مدلهای هوش مصنوعی را پردازش کنند.
یکی از این تستها بر اساس مدل Llama 3.1 از شرکت متا طراحی شده و توانایی پردازش سوالات پیچیده و تولید کد را بررسی میکند. در این آزمایش، سرورهای Nvidia با سختافزار جدیدشان تا ۳.۴ برابر سریعتر از نسل قبلی عمل کردند. معیار دوم نیز سرعت عملکرد مدلهای متنباز در شرایط واقعی مانند چتباتها را میسنجد.۱۴۰۴/۱/۱۴ ۲۰:۰۱:۳۲



