آزمون‌های ریاضی AI - اخبار فناوری - EcoFori

جدال بر سر نتایج آزمون‌های هوش مصنوعی میان OpenAI و xAI

شرکت xAI به رهبری ایلان ماسک نتایج آزمون ریاضی مدل Grok 3 را منتشر کرد که با واکنش منفی کارکنان OpenAI مواجه شد. آنها معتقدند نمودار ارائه شده گمراه‌کننده است و نتایج واقعی مدل را نشان نمی‌دهد. اختلاف اصلی بر سر روش محاسبه امتیازات و حذف برخی پارامترهای مهم از نمودار است که می‌تواند تصویر متفاوتی از عملکرد مدل ارائه دهد.

۱۴۰۳/۱۲/۵ ۰۴:۱۲:۳۳
۱۴۰۴/۲/۲ ۱۰:۳۸:۲۳
تست‌های سنجش هوش مصنوعی بیشتر شبیه تبلیغ‌اند تا واقعیت

یک پژوهش جدید از مؤسسه اینترنت آکسفورد نشان می‌دهد بسیاری از آزمون‌هایی که برای سنجش عملکرد هوش مصنوعی استفاده می‌شوند، نتایج دقیقی ارائه نمی‌دهند و گمراه‌کننده‌اند. 🤖
محققان ۴۴۵ تست مختلف را بررسی کردند و دریافتند اغلب آن‌ها تعریف روشنی از مهارت مورد ارزیابی ندارند و روش آماری قابل اعتماد برای مقایسه مدل‌ها ارائه نمی‌کنند. به گفته پژوهشگران، بسیاری از این آزمون‌ها در واقع توانایی واقعی مدل را نمی‌سنجند، بلکه فقط نشان می‌دهند که مدل پاسخ درست را حفظ کرده است. 📊
برای مثال، آزمون GSM8K که قرار است استدلال ریاضی مدل‌ها را بسنجد، ممکن است صرفاً حافظه آن‌ها را آزمایش کند. در آزمایش‌های جدید، وقتی سؤالات تازه مطرح شد، عملکرد مدل‌ها به‌شدت کاهش یافت. 📉
این تحقیق هشدار می‌دهد که نتایج تست‌ها معیار مطمئنی برای سنجش «هوش واقعی» مدل‌ها نیست و شرکت‌ها گاهی از آن‌ها برای تبلیغ بیش از اندازه استفاده می‌کنند. 🧠

۱۴۰۴/۸/۲۱ ۰۱:۱۲:۳۴
توهم ریاضی با ChatGPT؛ماجرای تکان‌دهنده مردی که فکر کرد اینترنت را نابود می‌کند!

«الن بروکس» کاربر ۴۷ساله کانادایی، ۳ هفته با ChatGPT گفتگو کرد و دچار توهم کشف ریاضی بزرگی شد که می‌تواند اینترنت را نابود کند.به گزارش نیویورک‌تایمز، GPT-4o به‌جای هشدار، مدام تأییدش کرد.📉
او با پرسش‌های ساده شروع کرد اما چت‌بات کم‌کم او را نابغه جلوه داد.سرانجام که فهمید اشتباه است، ChatGPT گفت موضوع را به تیم ایمنی OpenAI گزارش می‌کند؛ درحالی‌که چنین قابلیتی نداشت.❌
ادلر، پژوهشگر پیشین ایمنی OpenAI، متن الن که طولانی تر از ۷ کتاب هری‌پاتر بود را بررسی کرد و گفت بیش از ۸۵٪ پاسخ‌ها تأیید قطعی و بیش از ۹۰٪ تأکید بر نابغه‌بودن کاربر بوده است.🔎
او گفت این پرونده ضعف OpenAI در حمایت از کاربران بحران‌زده را نشان می‌دهد و به شکایت والدینِ نوجوانی اشاره کرد که پیش از خودکشی با ChatGPT گفتگو کرده و باورهای خطرناک او را تقویت کرده بود.⚠️
سپس OpenAI شیوه پاسخ‌گویی را تغییر داد و GPT-5 را معرفی کرد؛ گفته می‌شود این نسخه با کاربران آسیب‌پذیر بهتر عمل می‌کند و ساختار تیم‌های پژوهش رفتار مدل نیز بازتنظیم شد.🛠️

۱۴۰۴/۷/۱۲ ۱۶:۰۶:۲۵
MathGen؛ تیمی که ChatGPT را با هوش ریاضی مسلح کرد

OpenAI بعد از موفقیت ناگهانی ChatGPT، سال‌هاست روی ساخت مدل‌های «استدلالی» هوش مصنوعی کار می‌کند؛ مدل‌هایی که می‌توانند مثل یک انسان پشت رایانه کارها را انجام دهند. 🔍🧠
تیم MathGen این شرکت توانست با آموزش مدل‌ها برای حل مسائل سخت ریاضی، به پیشرفت بزرگی برسد که نتیجه آن مدل o1 بود. این مدل در سال ۲۰۲۴ معرفی شد و حتی مدال طلای المپیاد جهانی ریاضی را به‌دست آورد. 🏅📊
مدل o1 با ترکیب روش‌های یادگیری تقویتی (RL)، زنجیره تفکر (CoT) و استفاده از قدرت پردازشی بیشتر، توانست مسائل پیچیده را دقیق‌تر حل کند. این فناوری پایه‌ای برای ساخت «ایجنت‌ها» است؛ یعنی برنامه‌های هوشمندی که می‌توانند وظایف را خودکار انجام دهند، هرچند هنوز در کارهای ذهنی و سلیقه‌ای محدودیت‌هایی وجود دارد. ⚙️🤖
OpenAI حالا قصد دارد با مدل بعدی خود، GPT-5، ایجنت‌هایی بسازد که بدون نیاز به تنظیمات پیچیده، نیاز کاربر را بفهمند و اجرا کنند؛ رقابتی که با غول‌هایی مثل گوگل، آنتروپیک، xAI و متا بسیار جدی است. ✅🚀

۱۴۰۴/۵/۱۴ ۰۱:۵۶:۱۸
بروزرسانی مدل هوش مصنوعی Prover توسط آزمایشگاه DeepSeek

آزمایشگاه هوش مصنوعی چینی DeepSeek نسخه جدید مدل Prover را که برای حل اثبات‌ها و قضایای ریاضی طراحی شده است، به تازگی بروزرسانی کرده است. این مدل با 671 میلیارد پارامتر و معماری ترکیبی متخصصان، قابلیت حل مسائل پیچیده ریاضی را دارد و در پلتفرم Hugging Face منتشر شده است.

۱۴۰۴/۲/۱۱ ۱۶:۳۳:۵۸
‌اقدام جدید OpenAI برای طراحی آزمون‌های واقعی‌تر جهت سنجش هوش مصنوعی

شرکت OpenAI اعلام کرده که سیستم‌های فعلی سنجش عملکرد مدل‌های هوش مصنوعی ناکارآمد هستند و قصد دارد با راه‌اندازی برنامه‌ای به نام Pioneers، آزمون‌هایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
در این برنامه، شرکت‌هایی در حوزه‌هایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری می‌کنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار می‌کند، نه فقط در حل مسائل دانشگاهی یا رقابتی.

هدف نهایی، ایجاد آزمون‌هایی است که واقع‌بینانه‌تر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمون‌ها با همکاری خود OpenAI طراحی می‌شوند، بی‌طرفی آن‌ها زیر سوال برود.

۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴