معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف

۱۴۰۴/۷/۵ ۰۰:۵۹:۴۵

OpenAI به تازگی یک معیار جدید به نام GDPval را منتشر کرده است که به ارزیابی عملکرد مدل‌های هوش مصنوعی خود در مقایسه با کارشناسان انسانی در صنایع مختلف می‌پردازد. این معیار به‌ویژه بر روی نه صنعت اصلی که بیشترین سهم را در تولید ناخالص داخلی آمریکا دارند، تمرکز دارد. صنایع شامل بهداشت و درمان، مالی، تولید و دولت هستند و عملکرد مدل‌ها در ۴۴ شغل مختلف مورد آزمایش قرار می‌گیرد.نتایج اولیه نشان می‌دهد که مدل GPT-5 و مدل Claude Opus 4.1 به کیفیت کار کارشناسان نزدیک شده‌اند. برای مثال، GPT-5 در ۴۰.۶ درصد از وظایف بهتر یا برابر با کارشناسان امتیاز کسب کرده است، در حالی که Claude Opus 4.1 در ۴۹ درصد از وظایف موفق بوده است.با این حال، OpenAI تأکید می‌کند که این مدل‌ها هنوز نمی‌توانند به طور کامل جایگزین انسان‌ها شوند و معیار GDPval تنها به تعداد محدودی از وظایف پرداخته است. این شرکت قصد دارد در آینده آزمون‌های جامع‌تری را طراحی کند که شامل صنایع و وظایف بیشتری باشد. در نهایت، این معیار به عنوان یک گام مهم در ارزیابی پیشرفت هوش مصنوعی به شمار می‌رود. /

پیشرفت هوش مصنوعی و ارزیابی عملکرد مدل‌های OpenAI

OpenAIهوش مصنوعیمدل های هوش مصنوعیGDPvalصنعتفناوری در سیاستمعیار جدید OpenAIعملکرد هوش مصنوعیآزمون GDPval

	OpenAI: تقاضا انفجاری شده؛ ویژگی‌های جدید کند می‌آیند
	OpenAI به کاربران هندی یک سال رایگان ChatGPT Go ارائه می‌دهد!
	OpenAI در حال بررسی ارتباطات ایلان ماسک و متا است
	برنامه "OpenAI for Countries" و هدف اجرای ۱۰ پروژه بین‌المللی
	آیا OpenAI واقعیت‌های تلخ هوش مصنوعی را پنهان می‌کند؟
	دیزنی: گوگل حقوق کپی‌رایت ما را نقض کرده است
	چرا ChatGPT می‌ترسد با کاربر مخالفت کند؟
	پروژه غول‌پیکر OpenAI سه برابر Stargate است؛ هدف: آینده‌ای بدون محدودیت!
	افشای آمار شوکه‌کننده از کاربران ChatGPT؛ بیش از یک میلیون نفر با افکار خودکشی!
	OpenAI در پس‌زمینه خودکشی آدام رین چه می‌خواهد؟

معیار GDPval: سنجش عملکرد هوش مصنوعی در صنایع مختلف

ممکن است به این اخبار فناوری و تکنولوژی نیز علاقمند باشید