-
معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف
OpenAI تستی به نام GDPval معرفی کرده که نشان میدهد مدلهای هوش مصنوعی در بعضی مشاغل به سطح متخصصان نزدیک شدهاند. این تست در ۹ صنعت اصلی آمریکا مثل سلامت، مالی و تولید انجام شد و ۴۴ شغل مختلف را پوشش داد. 📊🤖
نتایج نشان داد GPT-5 در ۴۰٪ موارد و مدل Claude شرکت آنتروپیک در ۴۹٪ موارد عملکردی همسطح یا بهتر از انسان داشتند. البته این تست فقط بخش کوچکی از کار واقعی مشاغل را بررسی میکند. 📈🧑💼
OpenAI میگوید این پیشرفت به افراد کمک میکند بخشی از کارشان را به هوش مصنوعی بسپارند و وقت بیشتری برای کارهای مهمتر داشته باشند. مقایسهها هم نشان میدهد GPT-4 تنها ۱۳.۷٪ موفقیت داشت، در حالی که GPT-5 به حدود ۴۰٪ رسیده است؛ یعنی تقریباً سه برابر بهتر عمل کرده است. 🚀💡۱۴۰۴/۷/۵ ۰۰:۵۹:۴۵



