معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف
OpenAI به تازگی یک معیار جدید به نام GDPval را منتشر کرده است که به ارزیابی عملکرد مدلهای هوش مصنوعی خود در مقایسه با کارشناسان انسانی در صنایع مختلف میپردازد. این معیار بهویژه بر روی نه صنعت اصلی که بیشترین سهم را در تولید ناخالص داخلی آمریکا دارند، تمرکز دارد. صنایع شامل بهداشت و درمان، مالی، تولید و دولت هستند و عملکرد مدلها در ۴۴ شغل مختلف مورد آزمایش قرار میگیرد.نتایج اولیه نشان میدهد که مدل GPT-5 و مدل Claude Opus 4.1 به کیفیت کار کارشناسان نزدیک شدهاند. برای مثال، GPT-5 در ۴۰.۶ درصد از وظایف بهتر یا برابر با کارشناسان امتیاز کسب کرده است، در حالی که Claude Opus 4.1 در ۴۹ درصد از وظایف موفق بوده است.با این حال، OpenAI تأکید میکند که این مدلها هنوز نمیتوانند به طور کامل جایگزین انسانها شوند و معیار GDPval تنها به تعداد محدودی از وظایف پرداخته است. این شرکت قصد دارد در آینده آزمونهای جامعتری را طراحی کند که شامل صنایع و وظایف بیشتری باشد. در نهایت، این معیار به عنوان یک گام مهم در ارزیابی پیشرفت هوش مصنوعی به شمار میرود. /



