-
ابهام در رتبهبندی مدل هوش مصنوعی جدید متا ، Maverick
متا بهتازگی مدل هوش مصنوعی جدیدی به نام “Maverick” معرفی کرده که در آزمون مقایسهای LM Arena رتبه دوم را کسب کرده است. اما محققان متوجه شدهاند نسخهای که در این آزمون استفاده شده، با نسخهای که برای عموم عرضه شده تفاوت دارد و نسخهی شرکت داده شده در تست، بهطور ویژه برای گفتگو بهینهسازی شده بوده است. این موضوع باعث شده عملکرد واقعی مدل برای توسعهدهندگان مبهم باشد و رتبهبندی آن گمراهکننده به نظر برسد. چنین رویکردی، یعنی بهینهسازی صرف برای کسب رتبه بالا در تست و سپس عرضه نسخه متفاوت، میتواند اعتماد به این رتبهبندیها را زیر سؤال ببرد.
۱۴۰۴/۱/۱۹ ۰۹:۵۳:۲۹ -
متا در آزمون هوش مصنوعی تقلب کرد
شرکت متا (مالک فیسبوک و اینستاگرام) به تازگی مدلهای جدید هوش مصنوعی خود به نامهای Scout و Maverick را معرفی کرده که بر پایه نسخه جدید مدل «Llama 4» ساخته شدهاند. اما ماجرای جالب و جنجالی اینجاست: مدل «ماوریک» در یکی از تستهای معتبر به طرز عجیبی نمره بالایی کسب کرده و حتی از مدل معروف GPT-4o هم جلو زده بود.
بعد از بررسیهای بیشتر، مشخص شد که متا برای شرکت در این آزمون، از نسخهای ویژه و دستکاریشده از مدل خود استفاده کرده که طوری طراحی شده بود تا پاسخهایی دوستانهتر و جذابتر بدهد. همین ویژگی باعث شده بود کاربران به آن رأی بالاتری بدهند. برگزارکنندگان این آزمون هم اعلام کردند که از این پس قوانین سختتری وضع میکنند تا جلوی چنین ترفندهایی گرفته شود و ارزیابیها منصفانه باقی بمانند.۱۴۰۴/۱/۲۰ ۲۲:۴۲:۵۹ -
تستهای سنجش هوش مصنوعی بیشتر شبیه تبلیغاند تا واقعیت
یک پژوهش جدید از مؤسسه اینترنت آکسفورد نشان میدهد بسیاری از آزمونهایی که برای سنجش عملکرد هوش مصنوعی استفاده میشوند، نتایج دقیقی ارائه نمیدهند و گمراهکنندهاند. 🤖
محققان ۴۴۵ تست مختلف را بررسی کردند و دریافتند اغلب آنها تعریف روشنی از مهارت مورد ارزیابی ندارند و روش آماری قابل اعتماد برای مقایسه مدلها ارائه نمیکنند. به گفته پژوهشگران، بسیاری از این آزمونها در واقع توانایی واقعی مدل را نمیسنجند، بلکه فقط نشان میدهند که مدل پاسخ درست را حفظ کرده است. 📊
برای مثال، آزمون GSM8K که قرار است استدلال ریاضی مدلها را بسنجد، ممکن است صرفاً حافظه آنها را آزمایش کند. در آزمایشهای جدید، وقتی سؤالات تازه مطرح شد، عملکرد مدلها بهشدت کاهش یافت. 📉
این تحقیق هشدار میدهد که نتایج تستها معیار مطمئنی برای سنجش «هوش واقعی» مدلها نیست و شرکتها گاهی از آنها برای تبلیغ بیش از اندازه استفاده میکنند. 🧠۱۴۰۴/۸/۲۱ ۰۱:۱۲:۳۴ -
بازی جدید YC Arena؛ تجربهی هیجانانگیز داوری استارتاپها مثل غولهای سیلیکونولی!
یک دانشجو در برلین بازی جدیدی به نام YC Arena ساخته که تجربهی تصمیمگیری داوران شتابدهنده معروف Y Combinator را شبیهسازی میکند. 🎮
این شتابدهنده از معتبرترین مراکز رشد استارتاپی دنیاست. 🚀
در بازی «YC Partner Simulator»، بازیکن با تماشای ویدیوهای واقعی استارتاپها تصمیم میگیرد که آنها را بپذیرد یا رد کند و سپس میفهمد آیا نظرش با تصمیم واقعی YC یکی بوده است. 💡
این بازی نشان میدهد انتخاب شرکتها چقدر دشوار و گاهی وابسته به شانس است.
☕️ حتی بسیاری از استارتاپهای ردشده بعدها موفق شدهاند.🚀
بخشهای دیگر بازی شامل تشخیص لوگو و سال فعالیت استارتاپهاست، اما نسخه شبیهساز داور جذابترین بخش آن است. 🎯 تجربهی بازی ثابت میکند قضاوت درباره پتانسیل یک استارتاپ، امری ذهنی و پیچیده است. 🧩 در واقع، همانطور که پاول گراهام بنیانگذار YC میگوید، شفافیت و اختصار کلید جلب توجه داوران است. ✍️ جالب اینکه سم آلتمن رئیس پیشین YC گفته بود تصمیمگیری درباره هر استارتاپ تنها در ۱۰ دقیقه انجام میشود. ⏱️۱۴۰۴/۷/۱۴ ۰۳:۲۴:۱۴ -
معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف
OpenAI تستی به نام GDPval معرفی کرده که نشان میدهد مدلهای هوش مصنوعی در بعضی مشاغل به سطح متخصصان نزدیک شدهاند. این تست در ۹ صنعت اصلی آمریکا مثل سلامت، مالی و تولید انجام شد و ۴۴ شغل مختلف را پوشش داد. 📊🤖
نتایج نشان داد GPT-5 در ۴۰٪ موارد و مدل Claude شرکت آنتروپیک در ۴۹٪ موارد عملکردی همسطح یا بهتر از انسان داشتند. البته این تست فقط بخش کوچکی از کار واقعی مشاغل را بررسی میکند. 📈🧑💼
OpenAI میگوید این پیشرفت به افراد کمک میکند بخشی از کارشان را به هوش مصنوعی بسپارند و وقت بیشتری برای کارهای مهمتر داشته باشند. مقایسهها هم نشان میدهد GPT-4 تنها ۱۳.۷٪ موفقیت داشت، در حالی که GPT-5 به حدود ۴۰٪ رسیده است؛ یعنی تقریباً سه برابر بهتر عمل کرده است. 🚀💡۱۴۰۴/۷/۵ ۰۰:۵۹:۴۵ -
آزمون سرنوشتساز SpaceX؛ استارشيب آماده پرتاب دوباره
اسپیسایکس قصد دارد فردا در تاریخ ۲۴ اوت پرتاب آزمایشی جدید موشک غولپیکر استارشيب را از تگزاس انجام دهد. این آزمایش پس از چند انفجار و شکست قبلی برگزار میشود و برای آینده این پروژه بسیار سرنوشتساز است. 🚀🔥
در این پرتاب، بوستر قرار است در خلیج مکزیک و بخش بالایی استارشيب در اقیانوس هند فرود کنترلشده داشته باشند. تاکنون بیش از ۷.۵ میلیارد دلار برای این برنامه خرج شده و اسپیسایکس میخواهد ۱.۸ میلیارد دلار دیگر برای ساخت سکوهای پرتاب در فلوریدا سرمایهگذاری کند. 🌍💸
اهمیت این موشک برای ناسا و اسپیسایکس بسیار بالاست؛ زیرا استارشيب قرار است در مأموریت آرتمیس ۳ برای فرود فضانوردان روی ماه و در آینده برای سفر به مریخ و پرتاب ماهوارههای بزرگتر استفاده شود. ✅🌕۱۴۰۴/۶/۲ ۱۱:۲۹:۰۹ -
WWDC 2025؛ آزمون بزرگ اپل در رقابت هوش مصنوعی
با نزدیک شدن به کنفرانس WWDC 2025، انتظارات از اپل برای ارائه عملکردی واقعی در حوزه هوش مصنوعی افزایش یافته است. سال گذشته این شرکت وعدههایی درباره نسخه جدید سیری و قابلیتهای Apple Intelligence داد، اما عملیسازی آنها با تأخیر و ناهماهنگی همراه بود. ⏳
توسعهدهندگان هنوز به ابزارهایی مانند Swift Assist دسترسی ندارند و کاربران نیز از نسخه شخصیسازیشده سیری بیبهره ماندهاند. این وضعیت، جایگاه اپل را در رقابت با شرکتهایی مانند OpenAI و گوگل زیر سؤال برده است. ⚠️
همزمان، دادگاههای آمریکا اپل را از دریافت کارمزد برای پرداختهای خارج از اپاستور منع کردهاند؛ ضربهای بالقوه به درآمد میلیاردی شرکت از فروش اپلیکیشنها و اشتراکها. ⚖️
اپل حالا باید با اقداماتی ملموس در حوزه AI و ابزارهای توسعه، ارزش اکوسیستم خود را بازتعریف کند. 🚀۱۴۰۴/۳/۱۹ ۲۱:۰۴:۲۷ -
رسوایی در رتبهبندی هوش مصنوعی! Chatbot Arena
📊 مطالعهای مشترک از MIT، استنفورد و Cohere افشا کرد که Chatbot Arena که یک پلتفرم عمومی و رقابتی برای مقایسه و ارزیابی مدلهای هوش مصنوعی مکالمهمحور (چتباتها) می باشد به شرکتهای بزرگی مانند Meta و OpenAI اجازه داده مدلهایشان را در تستهای خصوصی بررسی کنند و فقط بهترین نتایج را منتشر کنند. این امتیاز ناعادلانه باعث شد آنها جایگاههای برتر را بهدست آورند، در حالیکه سایر رقبا چنین فرصتی نداشتند. پژوهشگران خواستار شفافسازی و تغییرات در این سیستم شدهاند. LM Arena برخی اتهامات را رد کرده، اما قول داده الگوریتم نمونهگیری را بهبود بخشد. 🔧
۱۴۰۴/۲/۱۲ ۱۴:۲۹:۰۱ -
-
پلتفرم مقایسه هوش مصنوعی “چتبات آرنا” شرکت مستقل تأسیس کرد
پلتفرم محبوب Chatbot Arena، که برای مقایسه و ارزیابی مدلهای هوش مصنوعی توسط کاربران ساخته شده، حالا شرکت مستقلی به نام Intelligence Inc. تأسیس کرده است. این پلتفرم که در سال ۲۰۲۳ توسط پژوهشگران دانشگاه برکلی راهاندازی شد، با شرکتهای بزرگی مانند OpenAI، گوگل و Anthropic همکاری دارد.
هدف از ایجاد این شرکت، توسعه و ارتقای پلتفرم و حفظ بیطرفی در ارزیابی مدلهاست. تاکنون این پروژه از طریق کمکهزینهها و کمکهای مالی شرکتهایی چون گوگل، اندریسن هوروویتس و Together AI پشتیبانی شده، اما هنوز مدل تجاری مشخصی برای شرکت جدید اعلام نشده است.۱۴۰۴/۱/۳۰ ۱۱:۴۰:۰۸ -
اقدام جدید OpenAI برای طراحی آزمونهای واقعیتر جهت سنجش هوش مصنوعی
شرکت OpenAI اعلام کرده که سیستمهای فعلی سنجش عملکرد مدلهای هوش مصنوعی ناکارآمد هستند و قصد دارد با راهاندازی برنامهای به نام Pioneers، آزمونهایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
در این برنامه، شرکتهایی در حوزههایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری میکنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار میکند، نه فقط در حل مسائل دانشگاهی یا رقابتی.
هدف نهایی، ایجاد آزمونهایی است که واقعبینانهتر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمونها با همکاری خود OpenAI طراحی میشوند، بیطرفی آنها زیر سوال برود.۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴ -
ناتوانی هوش مصنوعی در رفع اشکالات نرمافزاری؛ شکست مدلهای پیشرفته در آزمون
پژوهشی از شرکت مایکروسافت نشان میدهد که مدلهای هوش مصنوعی پیشرفته مانند Claude 3.7 Sonnet و o3-mini علیرغم پیشرفتهای اخیر، هنوز قادر به رفع کامل اشکالات نرمافزاری نیستند. این مدلها در آزمون SWE-bench Lite تنها موفق به حل کمتر از نیمی از وظایف رفع اشکال شدند که نشاندهنده محدودیتهای جدی هوش مصنوعی در حوزه برنامهنویسی است.
۱۴۰۴/۱/۲۳ ۰۰:۴۳:۰۵ -
رد اتهام دستکاری نتایج آزمون هوش مصنوعی توسط مدیر ارشد Meta
در پی شایعاتی مبنی بر اینکه شرکت متا نمرات مدلهای جدید هوش مصنوعیاش را بهصورت مصنوعی بالا برده، یکی از مدیران ارشد این شرکت این ادعا را رد کرد.
این شایعه ابتدا از شبکههای اجتماعی، از جمله ردیت و یک پست چینی، پخش شد و گفته میشد متا مدلهای «Llma ۴» را طوری آموزش داده که در آزمونهای ارزیابی عملکرد، بهتر از واقعیت ظاهر شوند. اما متا میگوید این ادعا «کاملاً نادرست» است.
با این حال، برخی کاربران گزارش دادهاند که عملکرد نسخههای مختلف این مدلها در سرویسهای ابری متفاوت است، که متا آن را به تازه بودن انتشار مدلها و نیاز به تنظیمات بیشتر نسبت میدهد.۱۴۰۴/۱/۱۹ ۲۳:۴۱:۰۹ -
آزمون جدید هوش مصنوعی ARC-AGI-2 چالش بزرگ برای مدلهای هوش مصنوعی
بنیاد جایزه آرک با همکاری فرانسوا شولت، آزمون جدید ARC-AGI-2 را برای سنجش هوش عمومی مدلهای هوش مصنوعی معرفی کرد. این آزمون که شامل حل پازلهای پیچیده با الگوهای بصری است، تاکنون مدلهای مختلف هوش مصنوعی از جمله GPT-4.5 و Claude 3.7 را با امتیازات بسیار پایین (حدود 1 درصد) مواجه کرده است. انسانها در این آزمون حدود 60 درصد موفق بودهاند.
۱۴۰۴/۱/۶ ۱۰:۲۶:۱۵ -
هوش مصنوعی Anthropic با بازی پوکمون به آزمایش مدل جدید خود پرداخت
شرکت Anthropic مدل هوش مصنوعی Claude 3.7 Sonnet را با استفاده از بازی کلاسیک پوکمون رد در Game Boy آزمایش کرد. این مدل توانست با قابلیت "تفکر گسترده" به موفقیتهایی مانند شکست سه رهبر ژیم و کسب نشان آنها دست یابد. این آزمایش نشان میدهد که مدل جدید Anthropic در پردازش و تصمیمگیری پیچیده پیشرفت قابل توجهی داشته است.
۱۴۰۳/۱۲/۶ ۲۳:۱۰:۴۴ -
جدال بر سر نتایج آزمونهای هوش مصنوعی میان OpenAI و xAI
شرکت xAI به رهبری ایلان ماسک نتایج آزمون ریاضی مدل Grok 3 را منتشر کرد که با واکنش منفی کارکنان OpenAI مواجه شد. آنها معتقدند نمودار ارائه شده گمراهکننده است و نتایج واقعی مدل را نشان نمیدهد. اختلاف اصلی بر سر روش محاسبه امتیازات و حذف برخی پارامترهای مهم از نمودار است که میتواند تصویر متفاوتی از عملکرد مدل ارائه دهد.
۱۴۰۳/۱۲/۵ ۰۴:۱۲:۳۳ -
رقابت شدید شرکتهای هوش مصنوعی در ارائه مدلهای پیشرفته
استارتاپ هوش مصنوعی xAI به مالکیت ایلان ماسک، مدل جدید Grok 3 را معرفی کرد که با آموزش روی 200 هزار پردازنده گرافیکی، در آزمونهای ریاضی و برنامهنویسی از سایر مدلهای رقیب پیشی گرفته است. متخصصان بر این باورند که آزمونهای فعلی هوش مصنوعی نیاز به بازنگری دارند و معیارهای سنجش باید با کاربردهای واقعی تطبیق پیدا کنند.
۱۴۰۳/۱۲/۱ ۲۳:۵۸:۳۶



