-
ارزیابی مردمی هوش مصنوعی زیر سوال رفت
پلتفرمهایی مثل Chatbot Arena که با کمک کاربران به ارزیابی مدلهای هوش مصنوعی میپردازند، با وجود محبوبیت زیاد، از دید برخی متخصصان دقت و اعتبار لازم را ندارند. این ارزیابیها بر اساس رأی کاربران است که ممکن است مبنای علمی یا مشخصی نداشته باشد. برخی پژوهشگران میگویند شرکتها گاهی با هدف تبلیغات، مدلهایی را برای این رقابتها بهینه میکنند، اما نسخهای ضعیفتر را منتشر میکنند. همچنین، عدهای معتقدند ارزیابی باید توسط نهادهای مستقل، تخصصی و با جبران مالی مناسب انجام شود. گرچه این روش مشارکتی مزایایی مثل تنوع دیدگاه دارد، اما نباید تنها معیار سنجش کیفیت مدلها باشد. مسئولان Chatbot Arena نیز میگویند هدفشان ارائه فضای باز و شفاف است و در حال اصلاح سیاستهای خود برای جلوگیری از سوءاستفاده هستند.
۱۴۰۴/۲/۳ ۱۷:۱۱:۱۳ -
رفتار عجیب Grok؛ چاپلوسی هوش مصنوعی نسبت به ایلان ماسک خبرساز شد
گزارشها نشان میدهد نسخه جدید هوش مصنوعی Grok (۴.۱) به شکل عجیبی ایلان ماسک را در هر مقایسهای برتر از دیگران معرفی میکند. کاربران X مثالهایی منتشر کردهاند که Grok در زمینههایی مثل فوتبال آمریکایی، مدلینگ و حتی هنر، ماسک را بهترین گزینه میداند و او را بالاتر از برخی چهرههایی محبوب ورزشی قرار میدهد. 🤖
ماسک در واکنش گفته این پاسخها نتیجه پرامپتهای مخرب کاربران بوده، اما بررسیها نشان میدهد Grok گاهی برای نظر دادن از حرفهای عمومی ماسک الهام میگیرد؛ مسئلهای که خود شرکت آن را رفتاری نادرست میداند و میگوید اصلاح آن در جریان است. 🧠
با این حال Grok در برخی موارد واقعبین بوده اما در بیشتر سناریوهای دیگر ، از بیسبال تا انتخاب هنرمند، همچنان ماسک را گزینه اول معرفی میکند؛ موضوعی که بحث تمایل برخی مدلهای هوش مصنوعی به «چاپلوسی الگوریتمی» را دوباره مطرح کرده است. ⚡۱۴۰۴/۹/۱ ۱۳:۳۵:۵۲ -
هوش مصنوعی، ناظر جدید بروزرسانی های متا
🧠 متا قصد دارد تا ۹۰٪ از بررسیهای مربوط به حریم خصوصی و آسیبهای احتمالی در بهروزرسانیهای اپهایی مثل اینستاگرام و واتساپ را به سیستم هوش مصنوعی بسپارد. 🤖
تیمها فرم پر میکنند و AI بلافاصله ریسکها را اعلام میکند. ⚙️
کارشناسان هشدار دادهاند این کار ممکن است باعث افزایش خطاها شود اما متا گفته فقط تصمیمات کمریسک خودکار شده و بررسیهای پیچیده با انسان خواهد بود.۱۴۰۴/۳/۱۳ ۰۰:۳۲:۵۰ -
نتایج تستهای ایمنی OpenAI حالا برای همه قابل مشاهده است
🤖 OpenAI مرکز ارزیابی ایمنی مدلهای هوش مصنوعی خود را راهاندازی کرد. این مرکز نتایج تستهای مدلها برای محتوای مضر، آسیب پذیری های امنیتی و خطاها را نمایش میدهد و با هر بهروزرسانی جدید مدلها ، آپدیت میشود تا شفافیت بیشتری ارائه شود. 💡کاربران میتوانند در فاز آزمایشی شرکت کرده و بازخورد دهند.
۱۴۰۴/۲/۲۹ ۱۱:۳۱:۳۲ -
OpenAI با پروژه cderGPT در تلاش برای کاهش زمان توسعه داروها با هوش مصنوعی
OpenAI، مالک ChatGPT، با مقامات سازمان غذا و داروی آمریکا (FDA) دیدار کرده تا راهی برای سرعتبخشیدن به بررسی داروها پیدا کند. 📊 به گزارش Wired، این همکاری در قالب پروژهای به نام cderGPT انجام میشود؛ یک ابزار هوش مصنوعی که به مرکز ارزیابی داروها (CDE) کمک میکند تا داروهای نسخهای و بدون نسخه را سریعتر بررسی کند. 💊
در دنیای پزشکی، توسعه یک دارو میتواند بیش از یک دهه طول بکشد. ⏳ اما هدف OpenAI این است که بخشهای پایانی این روند را با کمک هوش مصنوعی کوتاهتر کند. 🚀 این یعنی داروها سریعتر به دست بیماران برسند. 🤖
این پروژه میتواند تحولی در صنعت داروسازی ایجاد کند، اما همچنان نیاز به دقت بالا و نظارت دقیق دارد. 🔍۱۴۰۴/۲/۲۲ ۰۰:۲۴:۰۷ -
تحول در سنجش کیفیت اینترنت با ابزار جدید Orb
📶📉📊 اپلیکیشن جدید Orb، ساخته بنیانگذار Speedtest، دیگر فقط سرعت اینترنت را نمیسنجد، بلکه با بررسی نوسان، تأخیر، و خطای اتصال، وضعیت واقعی اینترنت را نمایش میدهد.
با یک امتیاز ساده، پایداری اینترنتتان را بسنجید و در صورت ضعف، راهکارهای دقیق دریافت کنید.
این ابزار روی سیستمعاملهای مختلف قابل نصب است، رایگان بوده و توسط متخصصان بزرگی از Netflix و Fastly حمایت شده است.
https://orb.net
🔍📡🧠۱۴۰۴/۲/۱۲ ۱۲:۵۶:۲۷ -
گوگل گزارش ارزیابی امنیتی مدل هوش مصنوعی Gemini 2.5 Pro را با جزئیات اندک منتشر کرد
گوگل گزارش فنی ارزیابی امنیتی مدل هوش مصنوعی Gemini 2.5 Pro را منتشر کرد که از نظر متخصصان، فاقد جزئیات کافی است. گزارش فنی امنیتی به معنای میزان خطرات و پاسخ های نادرست توسط مدل هوش مصنوعی است. کارشناسان معتقدند این گزارش اطلاعات محدودی درباره ریسکهای احتمالی مدل ارائه میدهد و شفافیت لازم را ندارد. این در حالی است که گوگل پیشتر تعهداتی مبنی بر انتشار گزارشهای امنیتی کامل برای مدلهای هوش مصنوعی خود به مراجع دولتی داده بود.
۱۴۰۴/۲/۷ ۲۲:۴۹:۴۵ -
پلتفرم مقایسه هوش مصنوعی “چتبات آرنا” شرکت مستقل تأسیس کرد
پلتفرم محبوب Chatbot Arena، که برای مقایسه و ارزیابی مدلهای هوش مصنوعی توسط کاربران ساخته شده، حالا شرکت مستقلی به نام Intelligence Inc. تأسیس کرده است. این پلتفرم که در سال ۲۰۲۳ توسط پژوهشگران دانشگاه برکلی راهاندازی شد، با شرکتهای بزرگی مانند OpenAI، گوگل و Anthropic همکاری دارد.
هدف از ایجاد این شرکت، توسعه و ارتقای پلتفرم و حفظ بیطرفی در ارزیابی مدلهاست. تاکنون این پروژه از طریق کمکهزینهها و کمکهای مالی شرکتهایی چون گوگل، اندریسن هوروویتس و Together AI پشتیبانی شده، اما هنوز مدل تجاری مشخصی برای شرکت جدید اعلام نشده است.۱۴۰۴/۱/۳۰ ۱۱:۴۰:۰۸ -
استارتاپ Context.ai توسط OpenAI جذب شد
استارتاپ Context.ai که در زمینه ارزیابی و تحلیل مدلهای هوش مصنوعی فعالیت میکند، توسط OpenAI خریداری شد. بنیانگذاران این استارتاپ که از کارکنان سابق گوگل هستند، با هدف ایجاد ابزارهای ارزیابی مدلهای هوش مصنوعی به OpenAI پیوستند. این شرکت که در سال ۲۰۲۳ تأسیس شده بود، با جذب ۳.۵ میلیون دلار سرمایه اولیه، داشبوردی برای تحلیل عملکرد مدلهای هوش مصنوعی ارائه میداد.
۱۴۰۴/۱/۲۷ ۲۲:۱۵:۱۶ -
اقدام جدید OpenAI برای طراحی آزمونهای واقعیتر جهت سنجش هوش مصنوعی
شرکت OpenAI اعلام کرده که سیستمهای فعلی سنجش عملکرد مدلهای هوش مصنوعی ناکارآمد هستند و قصد دارد با راهاندازی برنامهای به نام Pioneers، آزمونهایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
در این برنامه، شرکتهایی در حوزههایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری میکنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار میکند، نه فقط در حل مسائل دانشگاهی یا رقابتی.
هدف نهایی، ایجاد آزمونهایی است که واقعبینانهتر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمونها با همکاری خود OpenAI طراحی میشوند، بیطرفی آنها زیر سوال برود.۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴ -
هزینههای سنگین مدلهای هوش مصنوعی با قابلیت استدلال
مدلهای جدید هوش مصنوعی که توانایی «استدلال» و حل مسائل مرحلهبهمرحله را دارند، عملکرد بهتری نسبت به مدلهای قبلی نشان میدهند، اما آزمایش و ارزیابی آنها بسیار پرهزینه شده است. برای مثال، بررسی یکی از مدلهای OpenAI بیش از ۲۷۰۰ دلار هزینه داشته، در حالی که ارزیابی مدلهای معمولی کمتر از ۱۰۰ دلار خرج دارند.
دلیل اصلی این هزینه بالا، تولید حجم زیادی از متن (توکن) توسط این مدلها در هنگام پاسخ دادن به سوالات پیچیده است. هرچه مدل قویتر باشد، آزمایشش هم گرانتر میشود. کارشناسان هشدار میدهند که این روند میتواند باعث شود فقط شرکتهای بزرگ توان بررسی این مدلها را داشته باشند و شفافیت علمی کاهش یابد.۱۴۰۴/۱/۲۲ ۱۸:۵۵:۵۸ -
معیاری جدید برای سنجش سرعت پردازش هوش مصنوعی
یک گروه تحقیقاتی به نام MLCommons دو معیار جدید برای سنجش سرعت اجرای برنامههای هوش مصنوعی معرفی کرد. این معیارها مشخص میکنند که سختافزارها و نرمافزارهای پیشرفته چقدر سریع میتوانند مدلهای هوش مصنوعی را پردازش کنند.
یکی از این تستها بر اساس مدل Llama 3.1 از شرکت متا طراحی شده و توانایی پردازش سوالات پیچیده و تولید کد را بررسی میکند. در این آزمایش، سرورهای Nvidia با سختافزار جدیدشان تا ۳.۴ برابر سریعتر از نسل قبلی عمل کردند. معیار دوم نیز سرعت عملکرد مدلهای متنباز در شرایط واقعی مانند چتباتها را میسنجد.۱۴۰۴/۱/۱۴ ۲۰:۰۱:۳۲ -
ارزیابی هوش مصنوعی با چالشهای خلاقانه در محیط بازی Minecraft
یک دانشآموز دبیرستانی وبسایتی به نام MC-Bench ساخته که مدلهای هوش مصنوعی را در ساخت سازههای Minecraft بر اساس درخواست کاربران به چالش میکشد. کاربران رأی میدهند که کدام مدل عملکرد بهتری داشته و پس از رأیگیری، مشخص میشود که کدام هوش مصنوعی آن را ساخته است.
این روش خلاقانه به ارزیابی خلاقیت و توانایی حل مسئله هوش مصنوعی کمک میکند، زیرا Minecraft محیطی آشنا و قابل درک برای بسیاری از افراد است. شرکتهایی مانند گوگل، OpenAI و Anthropic از این پروژه حمایت کردهاند، چراکه میتواند دید بهتری درباره پیشرفت مدلهای هوش مصنوعی و توانایی آنها در انجام وظایف پیچیدهتر ارائه دهد.۱۴۰۴/۱/۲ ۰۱:۰۲:۱۰ -
ضربالاجل بریتانیا به پلتفرمهای اجتماعی برای ارزیابی محتوای غیرقانونی
سازمان نظارت رسانهای بریتانیا (آفکام) به شبکههای اجتماعی مانند فیسبوک، اینستاگرام و تیکتاک مهلت داده تا پایان مارس ارزیابی خطرات محتوای غیرقانونی را ارائه دهند. طبق قانون جدید امنیت آنلاین، این پلتفرمها باید احتمال مواجهه کاربران با محتوای مجرمانه مانند تروریسم، جرائم نفرتانگیز و سوء استفاده از کودکان را بررسی کنند.
۱۴۰۳/۱۲/۱۳ ۱۷:۲۵:۵۴ -
آریز؛ پلتفرم نظارت بر هوش مصنوعی با سرمایهگذاری ۷۰ میلیون دلاری
آریز یک استارتاپ فعال در حوزه نظارت بر سیستمهای هوش مصنوعی است که با رویکردی نوآورانه به ارزیابی و مانیتورینگ مدلهای هوش مصنوعی میپردازد. این شرکت با استفاده از رویکرد "شورای داوران" و ترکیب مدلهای هوش مصنوعی با نظارت انسانی، به شرکتهای بزرگی مانند اوبر و تریپ ادوایزر خدمات ارائه میدهد. آریز اخیراً موفق به جذب سرمایه ۷۰ میلیون دلاری شده و برنامه توسعه محصولات خود در حوزههای مختلف هوش مصنوعی را دارد.
۱۴۰۳/۱۲/۲ ۲۱:۳۶:۲۶



