• ۱۴۰۴/۲/۲ ۱۰:۳۸:۲۳
  • تست‌های سنجش هوش مصنوعی بیشتر شبیه تبلیغ‌اند تا واقعیت

    یک پژوهش جدید از مؤسسه اینترنت آکسفورد نشان می‌دهد بسیاری از آزمون‌هایی که برای سنجش عملکرد هوش مصنوعی استفاده می‌شوند، نتایج دقیقی ارائه نمی‌دهند و گمراه‌کننده‌اند. 🤖
    محققان ۴۴۵ تست مختلف را بررسی کردند و دریافتند اغلب آن‌ها تعریف روشنی از مهارت مورد ارزیابی ندارند و روش آماری قابل اعتماد برای مقایسه مدل‌ها ارائه نمی‌کنند. به گفته پژوهشگران، بسیاری از این آزمون‌ها در واقع توانایی واقعی مدل را نمی‌سنجند، بلکه فقط نشان می‌دهند که مدل پاسخ درست را حفظ کرده است. 📊
    برای مثال، آزمون GSM8K که قرار است استدلال ریاضی مدل‌ها را بسنجد، ممکن است صرفاً حافظه آن‌ها را آزمایش کند. در آزمایش‌های جدید، وقتی سؤالات تازه مطرح شد، عملکرد مدل‌ها به‌شدت کاهش یافت. 📉
    این تحقیق هشدار می‌دهد که نتایج تست‌ها معیار مطمئنی برای سنجش «هوش واقعی» مدل‌ها نیست و شرکت‌ها گاهی از آن‌ها برای تبلیغ بیش از اندازه استفاده می‌کنند. 🧠

    ۱۴۰۴/۸/۲۱ ۰۱:۱۲:۳۴
  • معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف

    OpenAI تستی به نام GDPval معرفی کرده که نشان می‌دهد مدل‌های هوش مصنوعی در بعضی مشاغل به سطح متخصصان نزدیک شده‌اند. این تست در ۹ صنعت اصلی آمریکا مثل سلامت، مالی و تولید انجام شد و ۴۴ شغل مختلف را پوشش داد. 📊🤖
    نتایج نشان داد GPT-5 در ۴۰٪ موارد و مدل Claude شرکت آنتروپیک در ۴۹٪ موارد عملکردی هم‌سطح یا بهتر از انسان داشتند. البته این تست فقط بخش کوچکی از کار واقعی مشاغل را بررسی می‌کند. 📈🧑‍💼
    OpenAI می‌گوید این پیشرفت به افراد کمک می‌کند بخشی از کارشان را به هوش مصنوعی بسپارند و وقت بیشتری برای کارهای مهم‌تر داشته باشند. مقایسه‌ها هم نشان می‌دهد GPT-4 تنها ۱۳.۷٪ موفقیت داشت، در حالی که GPT-5 به حدود ۴۰٪ رسیده است؛ یعنی تقریباً سه برابر بهتر عمل کرده است. 🚀💡

    ۱۴۰۴/۷/۵ ۰۰:۵۹:۴۵
  • آزمون سرنوشت‌ساز SpaceX؛ استارشيب آماده پرتاب دوباره

    اسپیس‌ایکس قصد دارد فردا در تاریخ ۲۴ اوت پرتاب آزمایشی جدید موشک غول‌پیکر استارشيب را از تگزاس انجام دهد. این آزمایش پس از چند انفجار و شکست قبلی برگزار می‌شود و برای آینده این پروژه بسیار سرنوشت‌ساز است. 🚀🔥
    در این پرتاب، بوستر قرار است در خلیج مکزیک و بخش بالایی استارشيب در اقیانوس هند فرود کنترل‌شده داشته باشند. تاکنون بیش از ۷.۵ میلیارد دلار برای این برنامه خرج شده و اسپیس‌ایکس می‌خواهد ۱.۸ میلیارد دلار دیگر برای ساخت سکوهای پرتاب در فلوریدا سرمایه‌گذاری کند. 🌍💸
    اهمیت این موشک برای ناسا و اسپیس‌ایکس بسیار بالاست؛ زیرا استارشيب قرار است در مأموریت آرتمیس ۳ برای فرود فضانوردان روی ماه و در آینده برای سفر به مریخ و پرتاب ماهواره‌های بزرگ‌تر استفاده شود. ✅🌕

    ۱۴۰۴/۶/۲ ۱۱:۲۹:۰۹
  • WWDC 2025؛ آزمون بزرگ اپل در رقابت هوش مصنوعی

    با نزدیک شدن به کنفرانس WWDC 2025، انتظارات از اپل برای ارائه عملکردی واقعی در حوزه هوش مصنوعی افزایش یافته است. سال گذشته این شرکت وعده‌هایی درباره نسخه جدید سیری و قابلیت‌های Apple Intelligence داد، اما عملی‌سازی آن‌ها با تأخیر و ناهماهنگی همراه بود. ⏳
    توسعه‌دهندگان هنوز به ابزارهایی مانند Swift Assist دسترسی ندارند و کاربران نیز از نسخه شخصی‌سازی‌شده سیری بی‌بهره مانده‌اند. این وضعیت، جایگاه اپل را در رقابت با شرکت‌هایی مانند OpenAI و گوگل زیر سؤال برده است. ⚠️
    هم‌زمان، دادگاه‌های آمریکا اپل را از دریافت کارمزد برای پرداخت‌های خارج از اپ‌استور منع کرده‌اند؛ ضربه‌ای بالقوه به درآمد میلیاردی شرکت از فروش اپلیکیشن‌ها و اشتراک‌ها. ⚖️
    اپل حالا باید با اقداماتی ملموس در حوزه AI و ابزارهای توسعه، ارزش اکوسیستم خود را بازتعریف کند. 🚀

    ۱۴۰۴/۳/۱۹ ۲۱:۰۴:۲۷
  • ‌اقدام جدید OpenAI برای طراحی آزمون‌های واقعی‌تر جهت سنجش هوش مصنوعی

    شرکت OpenAI اعلام کرده که سیستم‌های فعلی سنجش عملکرد مدل‌های هوش مصنوعی ناکارآمد هستند و قصد دارد با راه‌اندازی برنامه‌ای به نام Pioneers، آزمون‌هایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
    در این برنامه، شرکت‌هایی در حوزه‌هایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری می‌کنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار می‌کند، نه فقط در حل مسائل دانشگاهی یا رقابتی.

    هدف نهایی، ایجاد آزمون‌هایی است که واقع‌بینانه‌تر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمون‌ها با همکاری خود OpenAI طراحی می‌شوند، بی‌طرفی آن‌ها زیر سوال برود.

    ۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴
  • ناتوانی هوش مصنوعی در رفع اشکالات نرم‌افزاری؛ شکست مدل‌های پیشرفته در آزمون

    پژوهشی از شرکت مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی پیشرفته مانند Claude 3.7 Sonnet و o3-mini علی‌رغم پیشرفت‌های اخیر، هنوز قادر به رفع کامل اشکالات نرم‌افزاری نیستند. این مدل‌ها در آزمون SWE-bench Lite تنها موفق به حل کمتر از نیمی از وظایف رفع اشکال شدند که نشان‌دهنده محدودیت‌های جدی هوش مصنوعی در حوزه برنامه‌نویسی است.

    ۱۴۰۴/۱/۲۳ ۰۰:۴۳:۰۵
  • متا در آزمون هوش مصنوعی تقلب کرد

    شرکت متا (مالک فیسبوک و اینستاگرام) به تازگی مدل‌های جدید هوش مصنوعی خود به نام‌های Scout و Maverick را معرفی کرده که بر پایه نسخه جدید مدل «Llama 4» ساخته شده‌اند. اما ماجرای جالب و جنجالی اینجاست: مدل «ماوریک» در یکی از تست‌های معتبر به طرز عجیبی نمره بالایی کسب کرده و حتی از مدل معروف GPT-4o هم جلو زده بود.

    بعد از بررسی‌های بیشتر، مشخص شد که متا برای شرکت در این آزمون، از نسخه‌ای ویژه و دستکاری‌شده از مدل خود استفاده کرده که طوری طراحی شده بود تا پاسخ‌هایی دوستانه‌تر و جذاب‌تر بدهد. همین ویژگی باعث شده بود کاربران به آن رأی بالاتری بدهند. برگزارکنندگان این آزمون هم اعلام کردند که از این پس قوانین سخت‌تری وضع می‌کنند تا جلوی چنین ترفندهایی گرفته شود و ارزیابی‌ها منصفانه باقی بمانند.

    ۱۴۰۴/۱/۲۰ ۲۲:۴۲:۵۹
  • رد اتهام دستکاری نتایج آزمون هوش مصنوعی توسط مدیر ارشد Meta

    در پی شایعاتی مبنی بر اینکه شرکت متا نمرات مدل‌های جدید هوش مصنوعی‌اش را به‌صورت مصنوعی بالا برده، یکی از مدیران ارشد این شرکت این ادعا را رد کرد.
    این شایعه ابتدا از شبکه‌های اجتماعی، از جمله ردیت و یک پست چینی، پخش شد و گفته می‌شد متا مدل‌های «Llma ۴» را طوری آموزش داده که در آزمون‌های ارزیابی عملکرد، بهتر از واقعیت ظاهر شوند. اما متا می‌گوید این ادعا «کاملاً نادرست» است.
    با این حال، برخی کاربران گزارش داده‌اند که عملکرد نسخه‌های مختلف این مدل‌ها در سرویس‌های ابری متفاوت است، که متا آن را به تازه بودن انتشار مدل‌ها و نیاز به تنظیمات بیشتر نسبت می‌دهد.

    ۱۴۰۴/۱/۱۹ ۲۳:۴۱:۰۹
  • ابهام در رتبه‌بندی مدل هوش مصنوعی جدید متا ، Maverick

    متا به‌تازگی مدل هوش مصنوعی جدیدی به نام “Maverick” معرفی کرده که در آزمون مقایسه‌ای LM Arena رتبه دوم را کسب کرده است. اما محققان متوجه شده‌اند نسخه‌ای که در این آزمون استفاده شده، با نسخه‌ای که برای عموم عرضه شده تفاوت دارد و نسخه‌ی شرکت داده شده در تست، به‌طور ویژه برای گفتگو بهینه‌سازی شده بوده است. این موضوع باعث شده عملکرد واقعی مدل برای توسعه‌دهندگان مبهم باشد و رتبه‌بندی آن گمراه‌کننده به نظر برسد. چنین رویکردی، یعنی بهینه‌سازی صرف برای کسب رتبه بالا در تست و سپس عرضه نسخه متفاوت، می‌تواند اعتماد به این رتبه‌بندی‌ها را زیر سؤال ببرد.

    ۱۴۰۴/۱/۱۹ ۰۹:۵۳:۲۹
  • آزمون جدید هوش مصنوعی ARC-AGI-2 چالش بزرگ برای مدل‌های هوش مصنوعی

    بنیاد جایزه آرک با همکاری فرانسوا شولت، آزمون جدید ARC-AGI-2 را برای سنجش هوش عمومی مدل‌های هوش مصنوعی معرفی کرد. این آزمون که شامل حل پازل‌های پیچیده با الگوهای بصری است، تاکنون مدل‌های مختلف هوش مصنوعی از جمله GPT-4.5 و Claude 3.7 را با امتیازات بسیار پایین (حدود 1 درصد) مواجه کرده است. انسان‌ها در این آزمون حدود 60 درصد موفق بوده‌اند.

    ۱۴۰۴/۱/۶ ۱۰:۲۶:۱۵
  • هوش مصنوعی Anthropic با بازی پوکمون به آزمایش مدل جدید خود پرداخت

    شرکت Anthropic مدل هوش مصنوعی Claude 3.7 Sonnet را با استفاده از بازی کلاسیک پوکمون رد در Game Boy آزمایش کرد. این مدل توانست با قابلیت "تفکر گسترده" به موفقیت‌هایی مانند شکست سه رهبر ژیم و کسب نشان آنها دست یابد. این آزمایش نشان می‌دهد که مدل جدید Anthropic در پردازش و تصمیم‌گیری پیچیده پیشرفت قابل توجهی داشته است.

    ۱۴۰۳/۱۲/۶ ۲۳:۱۰:۴۴
  • جدال بر سر نتایج آزمون‌های هوش مصنوعی میان OpenAI و xAI

    شرکت xAI به رهبری ایلان ماسک نتایج آزمون ریاضی مدل Grok 3 را منتشر کرد که با واکنش منفی کارکنان OpenAI مواجه شد. آنها معتقدند نمودار ارائه شده گمراه‌کننده است و نتایج واقعی مدل را نشان نمی‌دهد. اختلاف اصلی بر سر روش محاسبه امتیازات و حذف برخی پارامترهای مهم از نمودار است که می‌تواند تصویر متفاوتی از عملکرد مدل ارائه دهد.

    ۱۴۰۳/۱۲/۵ ۰۴:۱۲:۳۳
  • رقابت شدید شرکت‌های هوش مصنوعی در ارائه مدل‌های پیشرفته

    استارتاپ هوش مصنوعی xAI به مالکیت ایلان ماسک، مدل جدید Grok 3 را معرفی کرد که با آموزش روی 200 هزار پردازنده گرافیکی، در آزمون‌های ریاضی و برنامه‌نویسی از سایر مدل‌های رقیب پیشی گرفته است. متخصصان بر این باورند که آزمون‌های فعلی هوش مصنوعی نیاز به بازنگری دارند و معیارهای سنجش باید با کاربردهای واقعی تطبیق پیدا کنند.

    ۱۴۰۳/۱۲/۱ ۲۳:۵۸:۳۶