اخبار تکنولوژی و فناوری

ابهام در رتبه‌بندی مدل هوش مصنوعی جدید متا ، Maverick

متا به‌تازگی مدل هوش مصنوعی جدیدی به نام “Maverick” معرفی کرده که در آزمون مقایسه‌ای LM Arena رتبه دوم را کسب کرده است. اما محققان متوجه شده‌اند نسخه‌ای که در این آزمون استفاده شده، با نسخه‌ای که برای عموم عرضه شده تفاوت دارد و نسخه‌ی شرکت داده شده در تست، به‌طور ویژه برای گفتگو بهینه‌سازی شده بوده است. این موضوع باعث شده عملکرد واقعی مدل برای توسعه‌دهندگان مبهم باشد و رتبه‌بندی آن گمراه‌کننده به نظر برسد. چنین رویکردی، یعنی بهینه‌سازی صرف برای کسب رتبه بالا در تست و سپس عرضه نسخه متفاوت، می‌تواند اعتماد به این رتبه‌بندی‌ها را زیر سؤال ببرد.

۱۴۰۴/۱/۱۹ ۰۹:۵۳:۲۹

متا در آزمون هوش مصنوعی تقلب کرد

شرکت متا (مالک فیسبوک و اینستاگرام) به تازگی مدل‌های جدید هوش مصنوعی خود به نام‌های Scout و Maverick را معرفی کرده که بر پایه نسخه جدید مدل «Llama 4» ساخته شده‌اند. اما ماجرای جالب و جنجالی اینجاست: مدل «ماوریک» در یکی از تست‌های معتبر به طرز عجیبی نمره بالایی کسب کرده و حتی از مدل معروف GPT-4o هم جلو زده بود.

بعد از بررسی‌های بیشتر، مشخص شد که متا برای شرکت در این آزمون، از نسخه‌ای ویژه و دستکاری‌شده از مدل خود استفاده کرده که طوری طراحی شده بود تا پاسخ‌هایی دوستانه‌تر و جذاب‌تر بدهد. همین ویژگی باعث شده بود کاربران به آن رأی بالاتری بدهند. برگزارکنندگان این آزمون هم اعلام کردند که از این پس قوانین سخت‌تری وضع می‌کنند تا جلوی چنین ترفندهایی گرفته شود و ارزیابی‌ها منصفانه باقی بمانند.

۱۴۰۴/۱/۲۰ ۲۲:۴۲:۵۹

تست‌های سنجش هوش مصنوعی بیشتر شبیه تبلیغ‌اند تا واقعیت

یک پژوهش جدید از مؤسسه اینترنت آکسفورد نشان می‌دهد بسیاری از آزمون‌هایی که برای سنجش عملکرد هوش مصنوعی استفاده می‌شوند، نتایج دقیقی ارائه نمی‌دهند و گمراه‌کننده‌اند. 🤖
محققان ۴۴۵ تست مختلف را بررسی کردند و دریافتند اغلب آن‌ها تعریف روشنی از مهارت مورد ارزیابی ندارند و روش آماری قابل اعتماد برای مقایسه مدل‌ها ارائه نمی‌کنند. به گفته پژوهشگران، بسیاری از این آزمون‌ها در واقع توانایی واقعی مدل را نمی‌سنجند، بلکه فقط نشان می‌دهند که مدل پاسخ درست را حفظ کرده است. 📊
برای مثال، آزمون GSM8K که قرار است استدلال ریاضی مدل‌ها را بسنجد، ممکن است صرفاً حافظه آن‌ها را آزمایش کند. در آزمایش‌های جدید، وقتی سؤالات تازه مطرح شد، عملکرد مدل‌ها به‌شدت کاهش یافت. 📉
این تحقیق هشدار می‌دهد که نتایج تست‌ها معیار مطمئنی برای سنجش «هوش واقعی» مدل‌ها نیست و شرکت‌ها گاهی از آن‌ها برای تبلیغ بیش از اندازه استفاده می‌کنند. 🧠

۱۴۰۴/۸/۲۱ ۰۱:۱۲:۳۴

بازی جدید YC Arena؛ تجربه‌ی هیجان‌انگیز داوری استارتاپ‌ها مثل غول‌های سیلیکون‌ولی!

یک دانشجو در برلین بازی جدیدی به نام YC Arena ساخته که تجربه‌ی تصمیم‌گیری داوران شتاب‌دهنده معروف Y Combinator را شبیه‌سازی می‌کند. 🎮
این شتاب‌دهنده از معتبرترین مراکز رشد استارتاپی دنیاست. 🚀
در بازی «YC Partner Simulator»، بازیکن با تماشای ویدیوهای واقعی استارتاپ‌ها تصمیم می‌گیرد که آن‌ها را بپذیرد یا رد کند و سپس می‌فهمد آیا نظرش با تصمیم واقعی YC یکی بوده است. 💡
این بازی نشان می‌دهد انتخاب شرکت‌ها چقدر دشوار و گاهی وابسته به شانس است.
☕️ حتی بسیاری از استارتاپ‌های ردشده بعدها موفق شده‌اند.🚀
بخش‌های دیگر بازی شامل تشخیص لوگو و سال فعالیت استارتاپ‌هاست، اما نسخه شبیه‌ساز داور جذاب‌ترین بخش آن است. 🎯 تجربه‌ی بازی ثابت می‌کند قضاوت درباره پتانسیل یک استارتاپ، امری ذهنی و پیچیده است. 🧩 در واقع، همان‌طور که پاول گراهام بنیان‌گذار YC می‌گوید، شفافیت و اختصار کلید جلب توجه داوران است. ✍️ جالب اینکه سم آلتمن رئیس پیشین YC گفته بود تصمیم‌گیری درباره هر استارتاپ تنها در ۱۰ دقیقه انجام می‌شود. ⏱️

۱۴۰۴/۷/۱۴ ۰۳:۲۴:۱۴

معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف

OpenAI تستی به نام GDPval معرفی کرده که نشان می‌دهد مدل‌های هوش مصنوعی در بعضی مشاغل به سطح متخصصان نزدیک شده‌اند. این تست در ۹ صنعت اصلی آمریکا مثل سلامت، مالی و تولید انجام شد و ۴۴ شغل مختلف را پوشش داد. 📊🤖
نتایج نشان داد GPT-5 در ۴۰٪ موارد و مدل Claude شرکت آنتروپیک در ۴۹٪ موارد عملکردی هم‌سطح یا بهتر از انسان داشتند. البته این تست فقط بخش کوچکی از کار واقعی مشاغل را بررسی می‌کند. 📈🧑‍💼
OpenAI می‌گوید این پیشرفت به افراد کمک می‌کند بخشی از کارشان را به هوش مصنوعی بسپارند و وقت بیشتری برای کارهای مهم‌تر داشته باشند. مقایسه‌ها هم نشان می‌دهد GPT-4 تنها ۱۳.۷٪ موفقیت داشت، در حالی که GPT-5 به حدود ۴۰٪ رسیده است؛ یعنی تقریباً سه برابر بهتر عمل کرده است. 🚀💡

۱۴۰۴/۷/۵ ۰۰:۵۹:۴۵

آزمون سرنوشت‌ساز SpaceX؛ استارشيب آماده پرتاب دوباره

اسپیس‌ایکس قصد دارد فردا در تاریخ ۲۴ اوت پرتاب آزمایشی جدید موشک غول‌پیکر استارشيب را از تگزاس انجام دهد. این آزمایش پس از چند انفجار و شکست قبلی برگزار می‌شود و برای آینده این پروژه بسیار سرنوشت‌ساز است. 🚀🔥
در این پرتاب، بوستر قرار است در خلیج مکزیک و بخش بالایی استارشيب در اقیانوس هند فرود کنترل‌شده داشته باشند. تاکنون بیش از ۷.۵ میلیارد دلار برای این برنامه خرج شده و اسپیس‌ایکس می‌خواهد ۱.۸ میلیارد دلار دیگر برای ساخت سکوهای پرتاب در فلوریدا سرمایه‌گذاری کند. 🌍💸
اهمیت این موشک برای ناسا و اسپیس‌ایکس بسیار بالاست؛ زیرا استارشيب قرار است در مأموریت آرتمیس ۳ برای فرود فضانوردان روی ماه و در آینده برای سفر به مریخ و پرتاب ماهواره‌های بزرگ‌تر استفاده شود. ✅🌕

۱۴۰۴/۶/۲ ۱۱:۲۹:۰۹

WWDC 2025؛ آزمون بزرگ اپل در رقابت هوش مصنوعی

با نزدیک شدن به کنفرانس WWDC 2025، انتظارات از اپل برای ارائه عملکردی واقعی در حوزه هوش مصنوعی افزایش یافته است. سال گذشته این شرکت وعده‌هایی درباره نسخه جدید سیری و قابلیت‌های Apple Intelligence داد، اما عملی‌سازی آن‌ها با تأخیر و ناهماهنگی همراه بود. ⏳
توسعه‌دهندگان هنوز به ابزارهایی مانند Swift Assist دسترسی ندارند و کاربران نیز از نسخه شخصی‌سازی‌شده سیری بی‌بهره مانده‌اند. این وضعیت، جایگاه اپل را در رقابت با شرکت‌هایی مانند OpenAI و گوگل زیر سؤال برده است. ⚠️
هم‌زمان، دادگاه‌های آمریکا اپل را از دریافت کارمزد برای پرداخت‌های خارج از اپ‌استور منع کرده‌اند؛ ضربه‌ای بالقوه به درآمد میلیاردی شرکت از فروش اپلیکیشن‌ها و اشتراک‌ها. ⚖️
اپل حالا باید با اقداماتی ملموس در حوزه AI و ابزارهای توسعه، ارزش اکوسیستم خود را بازتعریف کند. 🚀

۱۴۰۴/۳/۱۹ ۲۱:۰۴:۲۷

رسوایی در رتبه‌بندی هوش مصنوعی! Chatbot Arena

📊 مطالعه‌ای مشترک از MIT، استنفورد و Cohere افشا کرد که Chatbot Arena که یک پلتفرم عمومی و رقابتی برای مقایسه و ارزیابی مدل‌های هوش مصنوعی مکالمه‌محور (چت‌بات‌ها) می باشد به شرکت‌های بزرگی مانند Meta و OpenAI اجازه داده مدل‌هایشان را در تست‌های خصوصی بررسی کنند و فقط بهترین نتایج را منتشر کنند. این امتیاز ناعادلانه باعث شد آن‌ها جایگاه‌های برتر را به‌دست آورند، در حالی‌که سایر رقبا چنین فرصتی نداشتند. پژوهشگران خواستار شفاف‌سازی و تغییرات در این سیستم شده‌اند. LM Arena برخی اتهامات را رد کرده، اما قول داده الگوریتم نمونه‌گیری را بهبود بخشد. 🔧

۱۴۰۴/۲/۱۲ ۱۴:۲۹:۰۱

۱۴۰۴/۲/۲ ۱۰:۳۸:۲۳

پلتفرم مقایسه هوش مصنوعی “چت‌بات آرنا” شرکت مستقل تأسیس کرد

پلتفرم محبوب Chatbot Arena، که برای مقایسه و ارزیابی مدل‌های هوش مصنوعی توسط کاربران ساخته شده، حالا شرکت مستقلی به نام Intelligence Inc. تأسیس کرده است. این پلتفرم که در سال ۲۰۲۳ توسط پژوهشگران دانشگاه برکلی راه‌اندازی شد، با شرکت‌های بزرگی مانند OpenAI، گوگل و Anthropic همکاری دارد.
هدف از ایجاد این شرکت، توسعه و ارتقای پلتفرم و حفظ بی‌طرفی در ارزیابی مدل‌هاست. تاکنون این پروژه از طریق کمک‌هزینه‌ها و کمک‌های مالی شرکت‌هایی چون گوگل، اندریسن هوروویتس و Together AI پشتیبانی شده، اما هنوز مدل تجاری مشخصی برای شرکت جدید اعلام نشده است.

۱۴۰۴/۱/۳۰ ۱۱:۴۰:۰۸

‌اقدام جدید OpenAI برای طراحی آزمون‌های واقعی‌تر جهت سنجش هوش مصنوعی

شرکت OpenAI اعلام کرده که سیستم‌های فعلی سنجش عملکرد مدل‌های هوش مصنوعی ناکارآمد هستند و قصد دارد با راه‌اندازی برنامه‌ای به نام Pioneers، آزمون‌هایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
در این برنامه، شرکت‌هایی در حوزه‌هایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری می‌کنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار می‌کند، نه فقط در حل مسائل دانشگاهی یا رقابتی.

هدف نهایی، ایجاد آزمون‌هایی است که واقع‌بینانه‌تر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمون‌ها با همکاری خود OpenAI طراحی می‌شوند، بی‌طرفی آن‌ها زیر سوال برود.

۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴

ناتوانی هوش مصنوعی در رفع اشکالات نرم‌افزاری؛ شکست مدل‌های پیشرفته در آزمون

پژوهشی از شرکت مایکروسافت نشان می‌دهد که مدل‌های هوش مصنوعی پیشرفته مانند Claude 3.7 Sonnet و o3-mini علی‌رغم پیشرفت‌های اخیر، هنوز قادر به رفع کامل اشکالات نرم‌افزاری نیستند. این مدل‌ها در آزمون SWE-bench Lite تنها موفق به حل کمتر از نیمی از وظایف رفع اشکال شدند که نشان‌دهنده محدودیت‌های جدی هوش مصنوعی در حوزه برنامه‌نویسی است.

۱۴۰۴/۱/۲۳ ۰۰:۴۳:۰۵

رد اتهام دستکاری نتایج آزمون هوش مصنوعی توسط مدیر ارشد Meta

در پی شایعاتی مبنی بر اینکه شرکت متا نمرات مدل‌های جدید هوش مصنوعی‌اش را به‌صورت مصنوعی بالا برده، یکی از مدیران ارشد این شرکت این ادعا را رد کرد.
این شایعه ابتدا از شبکه‌های اجتماعی، از جمله ردیت و یک پست چینی، پخش شد و گفته می‌شد متا مدل‌های «Llma ۴» را طوری آموزش داده که در آزمون‌های ارزیابی عملکرد، بهتر از واقعیت ظاهر شوند. اما متا می‌گوید این ادعا «کاملاً نادرست» است.
با این حال، برخی کاربران گزارش داده‌اند که عملکرد نسخه‌های مختلف این مدل‌ها در سرویس‌های ابری متفاوت است، که متا آن را به تازه بودن انتشار مدل‌ها و نیاز به تنظیمات بیشتر نسبت می‌دهد.

۱۴۰۴/۱/۱۹ ۲۳:۴۱:۰۹

آزمون جدید هوش مصنوعی ARC-AGI-2 چالش بزرگ برای مدل‌های هوش مصنوعی

بنیاد جایزه آرک با همکاری فرانسوا شولت، آزمون جدید ARC-AGI-2 را برای سنجش هوش عمومی مدل‌های هوش مصنوعی معرفی کرد. این آزمون که شامل حل پازل‌های پیچیده با الگوهای بصری است، تاکنون مدل‌های مختلف هوش مصنوعی از جمله GPT-4.5 و Claude 3.7 را با امتیازات بسیار پایین (حدود 1 درصد) مواجه کرده است. انسان‌ها در این آزمون حدود 60 درصد موفق بوده‌اند.

۱۴۰۴/۱/۶ ۱۰:۲۶:۱۵

هوش مصنوعی Anthropic با بازی پوکمون به آزمایش مدل جدید خود پرداخت

شرکت Anthropic مدل هوش مصنوعی Claude 3.7 Sonnet را با استفاده از بازی کلاسیک پوکمون رد در Game Boy آزمایش کرد. این مدل توانست با قابلیت "تفکر گسترده" به موفقیت‌هایی مانند شکست سه رهبر ژیم و کسب نشان آنها دست یابد. این آزمایش نشان می‌دهد که مدل جدید Anthropic در پردازش و تصمیم‌گیری پیچیده پیشرفت قابل توجهی داشته است.

۱۴۰۳/۱۲/۶ ۲۳:۱۰:۴۴

جدال بر سر نتایج آزمون‌های هوش مصنوعی میان OpenAI و xAI

شرکت xAI به رهبری ایلان ماسک نتایج آزمون ریاضی مدل Grok 3 را منتشر کرد که با واکنش منفی کارکنان OpenAI مواجه شد. آنها معتقدند نمودار ارائه شده گمراه‌کننده است و نتایج واقعی مدل را نشان نمی‌دهد. اختلاف اصلی بر سر روش محاسبه امتیازات و حذف برخی پارامترهای مهم از نمودار است که می‌تواند تصویر متفاوتی از عملکرد مدل ارائه دهد.

۱۴۰۳/۱۲/۵ ۰۴:۱۲:۳۳

رقابت شدید شرکت‌های هوش مصنوعی در ارائه مدل‌های پیشرفته

استارتاپ هوش مصنوعی xAI به مالکیت ایلان ماسک، مدل جدید Grok 3 را معرفی کرد که با آموزش روی 200 هزار پردازنده گرافیکی، در آزمون‌های ریاضی و برنامه‌نویسی از سایر مدل‌های رقیب پیشی گرفته است. متخصصان بر این باورند که آزمون‌های فعلی هوش مصنوعی نیاز به بازنگری دارند و معیارهای سنجش باید با کاربردهای واقعی تطبیق پیدا کنند.

۱۴۰۳/۱۲/۱ ۲۳:۵۸:۳۶