اخبار تکنولوژی و فناوری

ارزیابی مردمی هوش مصنوعی زیر سوال رفت

پلتفرم‌هایی مثل Chatbot Arena که با کمک کاربران به ارزیابی مدل‌های هوش مصنوعی می‌پردازند، با وجود محبوبیت زیاد، از دید برخی متخصصان دقت و اعتبار لازم را ندارند. این ارزیابی‌ها بر اساس رأی کاربران است که ممکن است مبنای علمی یا مشخصی نداشته باشد. برخی پژوهشگران می‌گویند شرکت‌ها گاهی با هدف تبلیغات، مدل‌هایی را برای این رقابت‌ها بهینه می‌کنند، اما نسخه‌ای ضعیف‌تر را منتشر می‌کنند. همچنین، عده‌ای معتقدند ارزیابی باید توسط نهادهای مستقل، تخصصی و با جبران مالی مناسب انجام شود. گرچه این روش مشارکتی مزایایی مثل تنوع دیدگاه دارد، اما نباید تنها معیار سنجش کیفیت مدل‌ها باشد. مسئولان Chatbot Arena نیز می‌گویند هدفشان ارائه فضای باز و شفاف است و در حال اصلاح سیاست‌های خود برای جلوگیری از سوءاستفاده هستند.

۱۴۰۴/۲/۳ ۱۷:۱۱:۱۳

رفتار عجیب Grok؛ چاپلوسی هوش مصنوعی نسبت به ایلان ماسک خبرساز شد

گزارش‌ها نشان می‌دهد نسخه جدید هوش مصنوعی Grok (۴.۱) به شکل عجیبی ایلان ماسک را در هر مقایسه‌ای برتر از دیگران معرفی می‌کند. کاربران X مثال‌هایی منتشر کرده‌اند که Grok در زمینه‌هایی مثل فوتبال آمریکایی، مدلینگ و حتی هنر، ماسک را بهترین گزینه می‌داند و او را بالاتر از برخی چهره‌هایی محبوب ورزشی قرار می‌دهد. 🤖
ماسک در واکنش گفته این پاسخ‌ها نتیجه پرامپت‌های مخرب کاربران بوده، اما بررسی‌ها نشان می‌دهد Grok گاهی برای نظر دادن از حرف‌های عمومی ماسک الهام می‌گیرد؛ مسئله‌ای که خود شرکت آن را رفتاری نادرست می‌داند و می‌گوید اصلاح آن در جریان است. 🧠
با این حال Grok در برخی موارد واقع‌بین بوده اما در بیشتر سناریوهای دیگر ، از بیسبال تا انتخاب هنرمند، همچنان ماسک را گزینه اول معرفی می‌کند؛ موضوعی که بحث تمایل برخی مدل‌های هوش مصنوعی به «چاپلوسی الگوریتمی» را دوباره مطرح کرده است. ⚡

۱۴۰۴/۹/۱ ۱۳:۳۵:۵۲

هوش مصنوعی، ناظر جدید بروزرسانی های متا

🧠 متا قصد دارد تا ۹۰٪ از بررسی‌های مربوط به حریم خصوصی و آسیب‌های احتمالی در به‌روزرسانی‌های اپ‌هایی مثل اینستاگرام و واتساپ را به سیستم هوش مصنوعی بسپارد. 🤖
تیم‌ها فرم پر می‌کنند و AI بلافاصله ریسک‌ها را اعلام می‌کند. ⚙️
کارشناسان هشدار داده‌اند این کار ممکن است باعث افزایش خطاها شود اما متا گفته فقط تصمیمات کم‌ریسک خودکار شده و بررسی‌های پیچیده با انسان خواهد بود.

۱۴۰۴/۳/۱۳ ۰۰:۳۲:۵۰

نتایج تست‌های ایمنی OpenAI حالا برای همه قابل مشاهده است

🤖 OpenAI مرکز ارزیابی ایمنی مدل‌های هوش مصنوعی خود را راه‌اندازی کرد. این مرکز نتایج تست‌های مدل‌ها برای محتوای مضر، آسیب پذیری های امنیتی و خطاها را نمایش می‌دهد و با هر به‌روزرسانی جدید مدل‌ها ، آپدیت می‌شود تا شفافیت بیشتری ارائه شود. 💡کاربران می‌توانند در فاز آزمایشی شرکت کرده و بازخورد دهند.

۱۴۰۴/۲/۲۹ ۱۱:۳۱:۳۲

OpenAI با پروژه cderGPT در تلاش برای کاهش زمان توسعه داروها با هوش مصنوعی

OpenAI، مالک ChatGPT، با مقامات سازمان غذا و داروی آمریکا (FDA) دیدار کرده تا راهی برای سرعت‌بخشیدن به بررسی داروها پیدا کند. 📊 به گزارش Wired، این همکاری در قالب پروژه‌ای به نام cderGPT انجام می‌شود؛ یک ابزار هوش مصنوعی که به مرکز ارزیابی داروها (CDE) کمک می‌کند تا داروهای نسخه‌ای و بدون نسخه را سریع‌تر بررسی کند. 💊
در دنیای پزشکی، توسعه یک دارو می‌تواند بیش از یک دهه طول بکشد. ⏳ اما هدف OpenAI این است که بخش‌های پایانی این روند را با کمک هوش مصنوعی کوتاه‌تر کند. 🚀 این یعنی داروها سریع‌تر به دست بیماران برسند. 🤖
این پروژه می‌تواند تحولی در صنعت داروسازی ایجاد کند، اما همچنان نیاز به دقت بالا و نظارت دقیق دارد. 🔍

۱۴۰۴/۲/۲۲ ۰۰:۲۴:۰۷

تحول در سنجش کیفیت اینترنت با ابزار جدید Orb

‏
‏📶📉📊 اپلیکیشن جدید Orb، ساخته بنیان‌گذار Speedtest، دیگر فقط سرعت اینترنت را نمی‌سنجد، بلکه با بررسی نوسان، تأخیر، و خطای اتصال، وضعیت واقعی اینترنت را نمایش می‌دهد.
‏با یک امتیاز ساده، پایداری اینترنتتان را بسنجید و در صورت ضعف، راهکارهای دقیق دریافت کنید.
‏این ابزار روی سیستم‌عامل‌های مختلف قابل نصب است، رایگان بوده و توسط متخصصان بزرگی از Netflix و Fastly حمایت شده است.
‏
‏https://orb.net
‏
‏🔍📡🧠

۱۴۰۴/۲/۱۲ ۱۲:۵۶:۲۷

گوگل گزارش ارزیابی امنیتی مدل هوش مصنوعی Gemini 2.5 Pro را با جزئیات اندک منتشر کرد

گوگل گزارش فنی ارزیابی امنیتی مدل هوش مصنوعی Gemini 2.5 Pro را منتشر کرد که از نظر متخصصان، فاقد جزئیات کافی است. گزارش فنی امنیتی به معنای میزان خطرات و پاسخ های نادرست توسط مدل هوش مصنوعی است. کارشناسان معتقدند این گزارش اطلاعات محدودی درباره ریسک‌های احتمالی مدل ارائه می‌دهد و شفافیت لازم را ندارد. این در حالی است که گوگل پیش‌تر تعهداتی مبنی بر انتشار گزارش‌های امنیتی کامل برای مدل‌های هوش مصنوعی خود به مراجع دولتی داده بود.

۱۴۰۴/۲/۷ ۲۲:۴۹:۴۵

پلتفرم مقایسه هوش مصنوعی “چت‌بات آرنا” شرکت مستقل تأسیس کرد

پلتفرم محبوب Chatbot Arena، که برای مقایسه و ارزیابی مدل‌های هوش مصنوعی توسط کاربران ساخته شده، حالا شرکت مستقلی به نام Intelligence Inc. تأسیس کرده است. این پلتفرم که در سال ۲۰۲۳ توسط پژوهشگران دانشگاه برکلی راه‌اندازی شد، با شرکت‌های بزرگی مانند OpenAI، گوگل و Anthropic همکاری دارد.
هدف از ایجاد این شرکت، توسعه و ارتقای پلتفرم و حفظ بی‌طرفی در ارزیابی مدل‌هاست. تاکنون این پروژه از طریق کمک‌هزینه‌ها و کمک‌های مالی شرکت‌هایی چون گوگل، اندریسن هوروویتس و Together AI پشتیبانی شده، اما هنوز مدل تجاری مشخصی برای شرکت جدید اعلام نشده است.

۱۴۰۴/۱/۳۰ ۱۱:۴۰:۰۸

استارتاپ Context.ai توسط OpenAI جذب شد

استارتاپ Context.ai که در زمینه ارزیابی و تحلیل مدل‌های هوش مصنوعی فعالیت می‌کند، توسط OpenAI خریداری شد. بنیانگذاران این استارتاپ که از کارکنان سابق گوگل هستند، با هدف ایجاد ابزارهای ارزیابی مدل‌های هوش مصنوعی به OpenAI پیوستند. این شرکت که در سال ۲۰۲۳ تأسیس شده بود، با جذب ۳.۵ میلیون دلار سرمایه اولیه، داشبوردی برای تحلیل عملکرد مدل‌های هوش مصنوعی ارائه می‌داد.

۱۴۰۴/۱/۲۷ ۲۲:۱۵:۱۶

‌اقدام جدید OpenAI برای طراحی آزمون‌های واقعی‌تر جهت سنجش هوش مصنوعی

شرکت OpenAI اعلام کرده که سیستم‌های فعلی سنجش عملکرد مدل‌های هوش مصنوعی ناکارآمد هستند و قصد دارد با راه‌اندازی برنامه‌ای به نام Pioneers، آزمون‌هایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
در این برنامه، شرکت‌هایی در حوزه‌هایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری می‌کنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار می‌کند، نه فقط در حل مسائل دانشگاهی یا رقابتی.

هدف نهایی، ایجاد آزمون‌هایی است که واقع‌بینانه‌تر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمون‌ها با همکاری خود OpenAI طراحی می‌شوند، بی‌طرفی آن‌ها زیر سوال برود.

۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴

هزینه‌های سنگین مدل‌های هوش مصنوعی با قابلیت استدلال

مدل‌های جدید هوش مصنوعی که توانایی «استدلال» و حل مسائل مرحله‌به‌مرحله را دارند، عملکرد بهتری نسبت به مدل‌های قبلی نشان می‌دهند، اما آزمایش و ارزیابی آن‌ها بسیار پرهزینه شده است. برای مثال، بررسی یکی از مدل‌های OpenAI بیش از ۲۷۰۰ دلار هزینه داشته، در حالی که ارزیابی مدل‌های معمولی کمتر از ۱۰۰ دلار خرج دارند.
دلیل اصلی این هزینه بالا، تولید حجم زیادی از متن (توکن) توسط این مدل‌ها در هنگام پاسخ دادن به سوالات پیچیده است. هرچه مدل قوی‌تر باشد، آزمایشش هم گران‌تر می‌شود. کارشناسان هشدار می‌دهند که این روند می‌تواند باعث شود فقط شرکت‌های بزرگ توان بررسی این مدل‌ها را داشته باشند و شفافیت علمی کاهش یابد.

۱۴۰۴/۱/۲۲ ۱۸:۵۵:۵۸

معیاری جدید برای سنجش سرعت پردازش هوش مصنوعی

یک گروه تحقیقاتی به نام MLCommons دو معیار جدید برای سنجش سرعت اجرای برنامه‌های هوش مصنوعی معرفی کرد. این معیارها مشخص می‌کنند که سخت‌افزارها و نرم‌افزارهای پیشرفته چقدر سریع می‌توانند مدل‌های هوش مصنوعی را پردازش کنند.

یکی از این تست‌ها بر اساس مدل Llama 3.1 از شرکت متا طراحی شده و توانایی پردازش سوالات پیچیده و تولید کد را بررسی می‌کند. در این آزمایش، سرورهای Nvidia با سخت‌افزار جدیدشان تا ۳.۴ برابر سریع‌تر از نسل قبلی عمل کردند. معیار دوم نیز سرعت عملکرد مدل‌های متن‌باز در شرایط واقعی مانند چت‌بات‌ها را می‌سنجد.

۱۴۰۴/۱/۱۴ ۲۰:۰۱:۳۲

ارزیابی هوش مصنوعی با چالش‌های خلاقانه در محیط بازی Minecraft

یک دانش‌آموز دبیرستانی وب‌سایتی به نام MC-Bench ساخته که مدل‌های هوش مصنوعی را در ساخت سازه‌های Minecraft بر اساس درخواست کاربران به چالش می‌کشد. کاربران رأی می‌دهند که کدام مدل عملکرد بهتری داشته و پس از رأی‌گیری، مشخص می‌شود که کدام هوش مصنوعی آن را ساخته است.

این روش خلاقانه به ارزیابی خلاقیت و توانایی حل مسئله هوش مصنوعی کمک می‌کند، زیرا Minecraft محیطی آشنا و قابل‌ درک برای بسیاری از افراد است. شرکت‌هایی مانند گوگل، OpenAI و Anthropic از این پروژه حمایت کرده‌اند، چراکه می‌تواند دید بهتری درباره پیشرفت مدل‌های هوش مصنوعی و توانایی آن‌ها در انجام وظایف پیچیده‌تر ارائه دهد.

۱۴۰۴/۱/۲ ۰۱:۰۲:۱۰

ضرب‌الاجل بریتانیا به پلتفرم‌های اجتماعی برای ارزیابی محتوای غیرقانونی

سازمان نظارت رسانه‌ای بریتانیا (آفکام) به شبکه‌های اجتماعی مانند فیسبوک، اینستاگرام و تیک‌تاک مهلت داده تا پایان مارس ارزیابی خطرات محتوای غیرقانونی را ارائه دهند. طبق قانون جدید امنیت آنلاین، این پلتفرم‌ها باید احتمال مواجهه کاربران با محتوای مجرمانه مانند تروریسم، جرائم نفرت‌انگیز و سوء استفاده از کودکان را بررسی کنند.

۱۴۰۳/۱۲/۱۳ ۱۷:۲۵:۵۴

آریز؛ پلتفرم نظارت بر هوش مصنوعی با سرمایه‌گذاری ۷۰ میلیون دلاری

آریز یک استارتاپ فعال در حوزه نظارت بر سیستم‌های هوش مصنوعی است که با رویکردی نوآورانه به ارزیابی و مانیتورینگ مدل‌های هوش مصنوعی می‌پردازد. این شرکت با استفاده از رویکرد "شورای داوران" و ترکیب مدل‌های هوش مصنوعی با نظارت انسانی، به شرکت‌های بزرگی مانند اوبر و تریپ ادوایزر خدمات ارائه می‌دهد. آریز اخیراً موفق به جذب سرمایه ۷۰ میلیون دلاری شده و برنامه توسعه محصولات خود در حوزه‌های مختلف هوش مصنوعی را دارد.

۱۴۰۳/۱۲/۲ ۲۱:۳۶:۲۶