GDPval - اخبار فناوری - EcoFori

معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف

OpenAI تستی به نام GDPval معرفی کرده که نشان می‌دهد مدل‌های هوش مصنوعی در بعضی مشاغل به سطح متخصصان نزدیک شده‌اند. این تست در ۹ صنعت اصلی آمریکا مثل سلامت، مالی و تولید انجام شد و ۴۴ شغل مختلف را پوشش داد. 📊🤖
نتایج نشان داد GPT-5 در ۴۰٪ موارد و مدل Claude شرکت آنتروپیک در ۴۹٪ موارد عملکردی هم‌سطح یا بهتر از انسان داشتند. البته این تست فقط بخش کوچکی از کار واقعی مشاغل را بررسی می‌کند. 📈🧑‍💼
OpenAI می‌گوید این پیشرفت به افراد کمک می‌کند بخشی از کارشان را به هوش مصنوعی بسپارند و وقت بیشتری برای کارهای مهم‌تر داشته باشند. مقایسه‌ها هم نشان می‌دهد GPT-4 تنها ۱۳.۷٪ موفقیت داشت، در حالی که GPT-5 به حدود ۴۰٪ رسیده است؛ یعنی تقریباً سه برابر بهتر عمل کرده است. 🚀💡

۱۴۰۴/۷/۵ ۰۰:۵۹:۴۵