معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف

۱۴۰۴/۷/۵ ۰۰:۵۹:۴۵

OpenAI به تازگی یک معیار جدید به نام GDPval را منتشر کرده است که به ارزیابی عملکرد مدل‌های هوش مصنوعی خود در مقایسه با کارشناسان انسانی در صنایع مختلف می‌پردازد. این معیار به‌ویژه بر روی نه صنعت اصلی که بیشترین سهم را در تولید ناخالص داخلی آمریکا دارند، تمرکز دارد. صنایع شامل بهداشت و درمان، مالی، تولید و دولت هستند و عملکرد مدل‌ها در ۴۴ شغل مختلف مورد آزمایش قرار می‌گیرد.نتایج اولیه نشان می‌دهد که مدل GPT-5 و مدل Claude Opus 4.1 به کیفیت کار کارشناسان نزدیک شده‌اند. برای مثال، GPT-5 در ۴۰.۶ درصد از وظایف بهتر یا برابر با کارشناسان امتیاز کسب کرده است، در حالی که Claude Opus 4.1 در ۴۹ درصد از وظایف موفق بوده است.با این حال، OpenAI تأکید می‌کند که این مدل‌ها هنوز نمی‌توانند به طور کامل جایگزین انسان‌ها شوند و معیار GDPval تنها به تعداد محدودی از وظایف پرداخته است. این شرکت قصد دارد در آینده آزمون‌های جامع‌تری را طراحی کند که شامل صنایع و وظایف بیشتری باشد. در نهایت، این معیار به عنوان یک گام مهم در ارزیابی پیشرفت هوش مصنوعی به شمار می‌رود. /

© 2025 Copyright - All Rights Reserved By ecofori.ir