-
جدال بر سر نتایج آزمونهای هوش مصنوعی میان OpenAI و xAI
شرکت xAI به رهبری ایلان ماسک نتایج آزمون ریاضی مدل Grok 3 را منتشر کرد که با واکنش منفی کارکنان OpenAI مواجه شد. آنها معتقدند نمودار ارائه شده گمراهکننده است و نتایج واقعی مدل را نشان نمیدهد. اختلاف اصلی بر سر روش محاسبه امتیازات و حذف برخی پارامترهای مهم از نمودار است که میتواند تصویر متفاوتی از عملکرد مدل ارائه دهد.
۱۴۰۳/۱۲/۵ ۰۴:۱۲:۳۳ -
-
تستهای سنجش هوش مصنوعی بیشتر شبیه تبلیغاند تا واقعیت
یک پژوهش جدید از مؤسسه اینترنت آکسفورد نشان میدهد بسیاری از آزمونهایی که برای سنجش عملکرد هوش مصنوعی استفاده میشوند، نتایج دقیقی ارائه نمیدهند و گمراهکنندهاند. 🤖
محققان ۴۴۵ تست مختلف را بررسی کردند و دریافتند اغلب آنها تعریف روشنی از مهارت مورد ارزیابی ندارند و روش آماری قابل اعتماد برای مقایسه مدلها ارائه نمیکنند. به گفته پژوهشگران، بسیاری از این آزمونها در واقع توانایی واقعی مدل را نمیسنجند، بلکه فقط نشان میدهند که مدل پاسخ درست را حفظ کرده است. 📊
برای مثال، آزمون GSM8K که قرار است استدلال ریاضی مدلها را بسنجد، ممکن است صرفاً حافظه آنها را آزمایش کند. در آزمایشهای جدید، وقتی سؤالات تازه مطرح شد، عملکرد مدلها بهشدت کاهش یافت. 📉
این تحقیق هشدار میدهد که نتایج تستها معیار مطمئنی برای سنجش «هوش واقعی» مدلها نیست و شرکتها گاهی از آنها برای تبلیغ بیش از اندازه استفاده میکنند. 🧠۱۴۰۴/۸/۲۱ ۰۱:۱۲:۳۴ -
توهم ریاضی با ChatGPT؛ماجرای تکاندهنده مردی که فکر کرد اینترنت را نابود میکند!
«الن بروکس» کاربر ۴۷ساله کانادایی، ۳ هفته با ChatGPT گفتگو کرد و دچار توهم کشف ریاضی بزرگی شد که میتواند اینترنت را نابود کند.به گزارش نیویورکتایمز، GPT-4o بهجای هشدار، مدام تأییدش کرد.📉
او با پرسشهای ساده شروع کرد اما چتبات کمکم او را نابغه جلوه داد.سرانجام که فهمید اشتباه است، ChatGPT گفت موضوع را به تیم ایمنی OpenAI گزارش میکند؛ درحالیکه چنین قابلیتی نداشت.❌
ادلر، پژوهشگر پیشین ایمنی OpenAI، متن الن که طولانی تر از ۷ کتاب هریپاتر بود را بررسی کرد و گفت بیش از ۸۵٪ پاسخها تأیید قطعی و بیش از ۹۰٪ تأکید بر نابغهبودن کاربر بوده است.🔎
او گفت این پرونده ضعف OpenAI در حمایت از کاربران بحرانزده را نشان میدهد و به شکایت والدینِ نوجوانی اشاره کرد که پیش از خودکشی با ChatGPT گفتگو کرده و باورهای خطرناک او را تقویت کرده بود.⚠️
سپس OpenAI شیوه پاسخگویی را تغییر داد و GPT-5 را معرفی کرد؛ گفته میشود این نسخه با کاربران آسیبپذیر بهتر عمل میکند و ساختار تیمهای پژوهش رفتار مدل نیز بازتنظیم شد.🛠️۱۴۰۴/۷/۱۲ ۱۶:۰۶:۲۵ -
MathGen؛ تیمی که ChatGPT را با هوش ریاضی مسلح کرد
OpenAI بعد از موفقیت ناگهانی ChatGPT، سالهاست روی ساخت مدلهای «استدلالی» هوش مصنوعی کار میکند؛ مدلهایی که میتوانند مثل یک انسان پشت رایانه کارها را انجام دهند. 🔍🧠
تیم MathGen این شرکت توانست با آموزش مدلها برای حل مسائل سخت ریاضی، به پیشرفت بزرگی برسد که نتیجه آن مدل o1 بود. این مدل در سال ۲۰۲۴ معرفی شد و حتی مدال طلای المپیاد جهانی ریاضی را بهدست آورد. 🏅📊
مدل o1 با ترکیب روشهای یادگیری تقویتی (RL)، زنجیره تفکر (CoT) و استفاده از قدرت پردازشی بیشتر، توانست مسائل پیچیده را دقیقتر حل کند. این فناوری پایهای برای ساخت «ایجنتها» است؛ یعنی برنامههای هوشمندی که میتوانند وظایف را خودکار انجام دهند، هرچند هنوز در کارهای ذهنی و سلیقهای محدودیتهایی وجود دارد. ⚙️🤖
OpenAI حالا قصد دارد با مدل بعدی خود، GPT-5، ایجنتهایی بسازد که بدون نیاز به تنظیمات پیچیده، نیاز کاربر را بفهمند و اجرا کنند؛ رقابتی که با غولهایی مثل گوگل، آنتروپیک، xAI و متا بسیار جدی است. ✅🚀۱۴۰۴/۵/۱۴ ۰۱:۵۶:۱۸ -
بروزرسانی مدل هوش مصنوعی Prover توسط آزمایشگاه DeepSeek
آزمایشگاه هوش مصنوعی چینی DeepSeek نسخه جدید مدل Prover را که برای حل اثباتها و قضایای ریاضی طراحی شده است، به تازگی بروزرسانی کرده است. این مدل با 671 میلیارد پارامتر و معماری ترکیبی متخصصان، قابلیت حل مسائل پیچیده ریاضی را دارد و در پلتفرم Hugging Face منتشر شده است.
۱۴۰۴/۲/۱۱ ۱۶:۳۳:۵۸ -
اقدام جدید OpenAI برای طراحی آزمونهای واقعیتر جهت سنجش هوش مصنوعی
شرکت OpenAI اعلام کرده که سیستمهای فعلی سنجش عملکرد مدلهای هوش مصنوعی ناکارآمد هستند و قصد دارد با راهاندازی برنامهای به نام Pioneers، آزمونهایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
در این برنامه، شرکتهایی در حوزههایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری میکنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار میکند، نه فقط در حل مسائل دانشگاهی یا رقابتی.
هدف نهایی، ایجاد آزمونهایی است که واقعبینانهتر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمونها با همکاری خود OpenAI طراحی میشوند، بیطرفی آنها زیر سوال برود.۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴



