• تست‌های سنجش هوش مصنوعی بیشتر شبیه تبلیغ‌اند تا واقعیت

    یک پژوهش جدید از مؤسسه اینترنت آکسفورد نشان می‌دهد بسیاری از آزمون‌هایی که برای سنجش عملکرد هوش مصنوعی استفاده می‌شوند، نتایج دقیقی ارائه نمی‌دهند و گمراه‌کننده‌اند. 🤖
    محققان ۴۴۵ تست مختلف را بررسی کردند و دریافتند اغلب آن‌ها تعریف روشنی از مهارت مورد ارزیابی ندارند و روش آماری قابل اعتماد برای مقایسه مدل‌ها ارائه نمی‌کنند. به گفته پژوهشگران، بسیاری از این آزمون‌ها در واقع توانایی واقعی مدل را نمی‌سنجند، بلکه فقط نشان می‌دهند که مدل پاسخ درست را حفظ کرده است. 📊
    برای مثال، آزمون GSM8K که قرار است استدلال ریاضی مدل‌ها را بسنجد، ممکن است صرفاً حافظه آن‌ها را آزمایش کند. در آزمایش‌های جدید، وقتی سؤالات تازه مطرح شد، عملکرد مدل‌ها به‌شدت کاهش یافت. 📉
    این تحقیق هشدار می‌دهد که نتایج تست‌ها معیار مطمئنی برای سنجش «هوش واقعی» مدل‌ها نیست و شرکت‌ها گاهی از آن‌ها برای تبلیغ بیش از اندازه استفاده می‌کنند. 🧠

    ۱۴۰۴/۸/۲۱ ۰۱:۱۲:۳۴
  • معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف

    OpenAI تستی به نام GDPval معرفی کرده که نشان می‌دهد مدل‌های هوش مصنوعی در بعضی مشاغل به سطح متخصصان نزدیک شده‌اند. این تست در ۹ صنعت اصلی آمریکا مثل سلامت، مالی و تولید انجام شد و ۴۴ شغل مختلف را پوشش داد. 📊🤖
    نتایج نشان داد GPT-5 در ۴۰٪ موارد و مدل Claude شرکت آنتروپیک در ۴۹٪ موارد عملکردی هم‌سطح یا بهتر از انسان داشتند. البته این تست فقط بخش کوچکی از کار واقعی مشاغل را بررسی می‌کند. 📈🧑‍💼
    OpenAI می‌گوید این پیشرفت به افراد کمک می‌کند بخشی از کارشان را به هوش مصنوعی بسپارند و وقت بیشتری برای کارهای مهم‌تر داشته باشند. مقایسه‌ها هم نشان می‌دهد GPT-4 تنها ۱۳.۷٪ موفقیت داشت، در حالی که GPT-5 به حدود ۴۰٪ رسیده است؛ یعنی تقریباً سه برابر بهتر عمل کرده است. 🚀💡

    ۱۴۰۴/۷/۵ ۰۰:۵۹:۴۵
  • تحول در سنجش کیفیت اینترنت با ابزار جدید Orb


    ‏📶📉📊 اپلیکیشن جدید Orb، ساخته بنیان‌گذار Speedtest، دیگر فقط سرعت اینترنت را نمی‌سنجد، بلکه با بررسی نوسان، تأخیر، و خطای اتصال، وضعیت واقعی اینترنت را نمایش می‌دهد.
    ‏با یک امتیاز ساده، پایداری اینترنتتان را بسنجید و در صورت ضعف، راهکارهای دقیق دریافت کنید.
    ‏این ابزار روی سیستم‌عامل‌های مختلف قابل نصب است، رایگان بوده و توسط متخصصان بزرگی از Netflix و Fastly حمایت شده است.

    ‏https://orb.net

    ‏🔍📡🧠

    ۱۴۰۴/۲/۱۲ ۱۲:۵۶:۲۷
  • ارزیابی مردمی هوش مصنوعی زیر سوال رفت

    پلتفرم‌هایی مثل Chatbot Arena که با کمک کاربران به ارزیابی مدل‌های هوش مصنوعی می‌پردازند، با وجود محبوبیت زیاد، از دید برخی متخصصان دقت و اعتبار لازم را ندارند. این ارزیابی‌ها بر اساس رأی کاربران است که ممکن است مبنای علمی یا مشخصی نداشته باشد. برخی پژوهشگران می‌گویند شرکت‌ها گاهی با هدف تبلیغات، مدل‌هایی را برای این رقابت‌ها بهینه می‌کنند، اما نسخه‌ای ضعیف‌تر را منتشر می‌کنند. همچنین، عده‌ای معتقدند ارزیابی باید توسط نهادهای مستقل، تخصصی و با جبران مالی مناسب انجام شود. گرچه این روش مشارکتی مزایایی مثل تنوع دیدگاه دارد، اما نباید تنها معیار سنجش کیفیت مدل‌ها باشد. مسئولان Chatbot Arena نیز می‌گویند هدفشان ارائه فضای باز و شفاف است و در حال اصلاح سیاست‌های خود برای جلوگیری از سوءاستفاده هستند.

    ۱۴۰۴/۲/۳ ۱۷:۱۱:۱۳
  • رقابت مدل‌های هوش مصنوعی در بازی پوکمون؛ آیا نتایج قابل اعتمادند؟

    جدیدترین جنجال دنیای هوش مصنوعی به بازی معروف «پوکمون» رسیده است. برخی ادعا می‌کنند مدل «جمینی» از گوگل در اجرای این بازی از مدل «کلود» شرکت Anthropic جلو زده و مراحل بیشتری را طی کرده است. اما کاربران متوجه شده‌اند که جمینی با کمک یک نقشه سفارشی طراحی‌شده توسط توسعه‌دهنده‌اش بازی می‌کند؛ چیزی که به آن کمک می‌کند تصمیم‌های دقیق‌تری بگیرد.
    بنابراین نحوه اجرای این مدل‌ها و ابزارهای کمکی که استفاده می‌کنند، می‌تواند نتایج را کاملاً تغییر دهد. همین موضوع در آزمون‌های دیگر هم دیده شده؛ مثلاً مدل Claude 3.7 وقتی با ابزار خاص اجرا شده، عملکرد بهتری نسبت به حالت عادی داشته است. همین اتفاق برای مدل Llama 4 از متا هم افتاده است.

    بنابراین مقایسه دقیق و منصفانه مدل‌های هوش مصنوعی به‌دلیل تفاوت در روش اجرا، سخت‌تر از قبل شده است؛ حتی اگر محل رقابت، یک بازی کودکانه مثل پوکمون باشد.

    ۱۴۰۴/۱/۲۷ ۰۲:۳۰:۲۳
  • ‌اقدام جدید OpenAI برای طراحی آزمون‌های واقعی‌تر جهت سنجش هوش مصنوعی

    شرکت OpenAI اعلام کرده که سیستم‌های فعلی سنجش عملکرد مدل‌های هوش مصنوعی ناکارآمد هستند و قصد دارد با راه‌اندازی برنامه‌ای به نام Pioneers، آزمون‌هایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
    در این برنامه، شرکت‌هایی در حوزه‌هایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری می‌کنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار می‌کند، نه فقط در حل مسائل دانشگاهی یا رقابتی.

    هدف نهایی، ایجاد آزمون‌هایی است که واقع‌بینانه‌تر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمون‌ها با همکاری خود OpenAI طراحی می‌شوند، بی‌طرفی آن‌ها زیر سوال برود.

    ۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴
  • معیاری جدید برای سنجش سرعت پردازش هوش مصنوعی

    یک گروه تحقیقاتی به نام MLCommons دو معیار جدید برای سنجش سرعت اجرای برنامه‌های هوش مصنوعی معرفی کرد. این معیارها مشخص می‌کنند که سخت‌افزارها و نرم‌افزارهای پیشرفته چقدر سریع می‌توانند مدل‌های هوش مصنوعی را پردازش کنند.

    یکی از این تست‌ها بر اساس مدل Llama 3.1 از شرکت متا طراحی شده و توانایی پردازش سوالات پیچیده و تولید کد را بررسی می‌کند. در این آزمایش، سرورهای Nvidia با سخت‌افزار جدیدشان تا ۳.۴ برابر سریع‌تر از نسل قبلی عمل کردند. معیار دوم نیز سرعت عملکرد مدل‌های متن‌باز در شرایط واقعی مانند چت‌بات‌ها را می‌سنجد.

    ۱۴۰۴/۱/۱۴ ۲۰:۰۱:۳۲