اخبار تکنولوژی و فناوری

تست‌های سنجش هوش مصنوعی بیشتر شبیه تبلیغ‌اند تا واقعیت

یک پژوهش جدید از مؤسسه اینترنت آکسفورد نشان می‌دهد بسیاری از آزمون‌هایی که برای سنجش عملکرد هوش مصنوعی استفاده می‌شوند، نتایج دقیقی ارائه نمی‌دهند و گمراه‌کننده‌اند. 🤖
محققان ۴۴۵ تست مختلف را بررسی کردند و دریافتند اغلب آن‌ها تعریف روشنی از مهارت مورد ارزیابی ندارند و روش آماری قابل اعتماد برای مقایسه مدل‌ها ارائه نمی‌کنند. به گفته پژوهشگران، بسیاری از این آزمون‌ها در واقع توانایی واقعی مدل را نمی‌سنجند، بلکه فقط نشان می‌دهند که مدل پاسخ درست را حفظ کرده است. 📊
برای مثال، آزمون GSM8K که قرار است استدلال ریاضی مدل‌ها را بسنجد، ممکن است صرفاً حافظه آن‌ها را آزمایش کند. در آزمایش‌های جدید، وقتی سؤالات تازه مطرح شد، عملکرد مدل‌ها به‌شدت کاهش یافت. 📉
این تحقیق هشدار می‌دهد که نتایج تست‌ها معیار مطمئنی برای سنجش «هوش واقعی» مدل‌ها نیست و شرکت‌ها گاهی از آن‌ها برای تبلیغ بیش از اندازه استفاده می‌کنند. 🧠

۱۴۰۴/۸/۲۱ ۰۱:۱۲:۳۴

SongDNA؛ پروژه تازه اسپاتیفای برای کشف چهره‌های پنهان دنیای موسیقی!

اسپاتیفای در حال توسعه قابلیتی به نام SongDNA است که به کاربران اجازه می‌دهد موسیقی‌ها را از طریق شناخت عوامل پشت‌صحنه مانند نویسندگان، خوانندگان، آهنگ‌سازان و تهیه‌کنندگان کشف کنند.
🎶 این قابلیت توسط مهندسی معکوس در کد برنامه شناسایی شد و شامل نمایی تصویری از ارتباط میان سازندگان هر آهنگ است. 📱
اگر SongDNA منتشر شود، می‌تواند رقیب جدی سرویس TIDAL در نمایش اعتبار و مشارکت سازندگان باشد. 🎧 این ابزار برای فعالان صنعت موسیقی و علاقه‌مندان به شناخت چهره‌های پشت‌صحنه بسیار مفید خواهد بود. 🎤 💻 SongDNA به جای خود موسیقی به انسان‌های پشت صحنه موسیقی تمرکز می‌کند. 💫

۱۴۰۴/۷/۲۵ ۱۰:۱۲:۵۰

چرا هکرها هر روز جسورتر می‌شوند؟ راز اعتبار در دنیای زیرزمین!

هکرها برای دریافت باج بیشتر و کسب شهرت، به سراغ اهداف بزرگ‌تری رفته‌اند؛ حمله باج‌افزاری اخیر به «Collins Aerospace» وابسته به RTX سیستم‌های پذیرش و تحویل بار در فرودگاه‌های اروپا را مختل و هزاران مسافر را زمین‌گیر و ده‌ها پرواز را متأثر کرد. ✈️💻🛄🚨
آژانس سایبری اتحادیه اروپا (ENISA) این رخداد را باج‌افزاری تائید کرده اما هیچ گروهی مسئولیت آن را نپذیرفته است؛ معمولاً باج‌افزارها داده‌ها را رمزگذاری یا سرقت و سپس برای آزادی‌شان درخواست پول می‌کنند، اما گروه‌های جسورتر دنبال ایجاد اختلال گسترده و افزایش اعتبار در میان مجرمانند ، نمونه‌هایی مانند حمله «Scattered Spider» به خرده فروشی بریتانیایی Marks & Spencer و نفوذ به سامانه حمل‌ونقل لندن گویای این روند است؛ 🔐👥💰
کارشناسان هشدار می‌دهند تا وقتی توسعه‌دهندگان و تیم‌های فناوری در نوشتن و ارزیابی امنیت نرم‌افزارها بهتر نشوند، این نوع حملات می‌تواند به خدمات حیاتی مثل بیمارستان‌ها و زیرساخت‌ها آسیب بزند، و انگیزه کسب شهرت در شبکه‌های تبهکاری، هدف‌گیری اهداف بزرگ‌تر را تشدید می‌کند. ⚠️🏥📈

۱۴۰۴/۷/۲ ۲۳:۳۰:۱۴

Bluesky تیک آبی را فعال کرد

🔵 پلتفرم Bluesky امکان دریافت تیک آبی را برای کاربران معتبر فعال کرد. کاربران و سازمان‌ها می‌توانند از طریق فرم آنلاین درخواست تأیید بدهند. 📄✅
Bluesky از تأیید با دامنه شخصی نیز پشتیبانی می‌کند و تاکنون بیش از ۲۷۰ هزار کاربر از آن استفاده کرده‌اند. 🌐
این اقدام با هدف حفظ رویکرد غیرمتمرکز انجام شده، هرچند معیارهای «شناخته‌شدگی» هنوز دقیق مشخص نیست. ⚖️❓

۱۴۰۴/۳/۵ ۰۱:۵۶:۵۰

استارتاپ Cnaught؛ خرید آسان اعتبار کربن برای همه

🌿 ماجرا از یک لیست کریسمس عجیب شروع شد! 🎄 پسر ۱۲ ساله «مارک چن» به‌جای هدیه، اعتبار کربن خواست! 🌍 این ایده باعث شد چن وارد دنیای پیچیده بازار اعتبار کربن شود و خیلی زود متوجه شد که این بازار برای افراد و حتی شرکت‌های کوچک، گیج‌کننده و نامشخص است.
🔹 چن تصمیم گرفت مشکل را حل کند. او استارتاپ Cnaught را راه‌اندازی کرد؛ پلتفرمی که خرید اعتبار کربن را برای کسب‌وکارهای کوچک و متوسط ساده می‌کند. 🌐✨ این بازار که قبلاً فقط برای غول‌هایی مثل مایکروسافت و … قابل دسترسی بود، حالا به‌روی همه باز شده! 🔓
🔹 این استارتاپ به‌تازگی ۴.۵ میلیون دلار سرمایه جذب کرده.
🔹 چن می‌گوید: «ما می‌خواهیم خرید اعتبار کربن را به‌سادگی فشار دادن یک دکمه کنیم! 👆🌿

۱۴۰۴/۲/۲۳ ۰۶:۵۴:۳۱

Anthropic با برنامه "AI for Science" به کمک پژوهشگران می‌آید

Anthropic برنامه‌ای جدید با عنوان «هوش مصنوعی برای علم» راه‌اندازی کرده تا به پژوهشگران حوزه‌های زیستی و پزشکی در پروژه‌های مهم کمک کند. شرکت به منتخبین تا ۲۰ هزار دلار اعتبار API برای استفاده از مدل‌های هوش مصنوعی خود می‌دهد. 💰
هدف، شتاب‌دهی به تحقیقاتی چون کشف دارو، تحلیل داده ژنتیکی و افزایش بهره‌وری کشاورزی با توان تحلیل زبان و داده هوش مصنوعی است. 🤖
انتخاب بر پایه اهمیت پروژه، تأثیر علمی و نقش هوش مصنوعی خواهد بود. اگرچه برخی متخصصان نسبت به کارایی فعلی هوش مصنوعی در علم تردید دارند و نمونه‌هایی مثل گوگل نتایج قابل توجهی نداشته‌اند، اما Anthropic امیدوار است تجربه موفق‌تری ارائه دهد. ⚠️

۱۴۰۴/۲/۱۷ ۱۰:۵۵:۱۶

ابزار جدید Adobe برای جلوگیری از استفاده تصاویر در آموزش هوش مصنوعی

ادوبی قصد دارد برای تصاویر، سیستمی مشابه فایل robots.txt در سایت‌ها ایجاد کند تا هنرمندان و عکاسان بتوانند مشخص کنند که نمی‌خواهند آثارشان در آموزش مدل‌های هوش مصنوعی استفاده شود. این ابزار به کاربران امکان می‌دهد اطلاعات مالکیت و اصالت مثل نام و حساب‌های کاربری خود را به تصاویر (JPG و PNG) اضافه کنند و تیک “عدم استفاده برای آموزش AI” را فعال نمایند.
ادوبی می‌گوید این اطلاعات در متادیتای تصویر ثبت می‌شود و حتی با ویرایش تصویر نیز باقی می‌ماند. یک افزونه کروم هم برای نمایش این اطلاعات عرضه شده است. با این حال، هنوز توافقی با شرکت‌های توسعه‌دهنده هوش مصنوعی برای رعایت این علامت‌گذاری انجام نشده و موفقیت این طرح به پذیرش آن از سوی این شرکت‌ها بستگی دارد.

۱۴۰۴/۲/۵ ۱۳:۱۸:۴۳

شبکه اجتماعی Bluesky سیستم تأیید هویت حساب‌های کاربری را راه‌اندازی می‌کند

پلتفرم اجتماعی Bluesky سیستم تأیید هویت حساب‌های کاربری با علامت آبی را معرفی کرد. این سیستم با همکاری سازمان‌های مستقل، اعتبار حساب‌های رسمی مانند اعضای تیم شرکت‌ها را تأیید می‌کند. هدف اصلی، جلوگیری از جعل هویت و افزایش اعتماد کاربران به منابع اطلاعاتی است.

۱۴۰۴/۲/۲ ۲۱:۵۵:۵۵

۱۴۰۴/۲/۲ ۱۰:۳۸:۲۳

مایکروسافت با خرید اعتبارات حذف کربن، به سمت کاهش انتشار گازهای گلخانه‌ای گام برمی‌دارد

مایکروسافت برای کمک به هدف “کربن منفی” شدن تا سال ۲۰۳۰، ۳.۷ میلیون تُن اعتبار حذف کربن از شرکت CO280 خرید. این شرکت با کارخانه‌های کاغذسازی همکاری می‌کند تا دی‌اکسیدکربن تولیدی را جذب و در یک مخزن زیرزمینی ذخیره کند. فاز اول پروژه که از ۲۰۲۸ آغاز می‌شود، ۴۰٪ از کربن زیستی و ۳۰٪ از کل CO2 کارخانه را جذب می‌کند. کارخانه‌ها نیز از درآمد فروش این اعتبارها سهم می‌برند. این پروژه با فناوری شرکت SLB Capturi انجام می‌شود.

۱۴۰۴/۱/۲۳ ۲۳:۵۵:۵۵

‌اقدام جدید OpenAI برای طراحی آزمون‌های واقعی‌تر جهت سنجش هوش مصنوعی

شرکت OpenAI اعلام کرده که سیستم‌های فعلی سنجش عملکرد مدل‌های هوش مصنوعی ناکارآمد هستند و قصد دارد با راه‌اندازی برنامه‌ای به نام Pioneers، آزمون‌هایی طراحی کند که کاربردهای واقعی این فناوری را بهتر منعکس کنند.
در این برنامه، شرکت‌هایی در حوزه‌هایی مانند حقوق، بیمه، مالی، سلامت و حسابداری با OpenAI همکاری می‌کنند تا معیارهایی بسازند که نشان دهند یک مدل در عمل چقدر خوب کار می‌کند، نه فقط در حل مسائل دانشگاهی یا رقابتی.

هدف نهایی، ایجاد آزمون‌هایی است که واقع‌بینانه‌تر، قابل اعتمادتر و متناسب با نیازهای دنیای واقعی باشند. البته برخی منتقدان نگرانند که چون این آزمون‌ها با همکاری خود OpenAI طراحی می‌شوند، بی‌طرفی آن‌ها زیر سوال برود.

۱۴۰۴/۱/۲۳ ۱۸:۳۳:۴۴

شکایت BBC از اپل و گوگل نیوز درباره اعتبار منبع اخبار

رسانه‌ی BBC از یک نهاد نظارتی در بریتانیا شکایت کرده و گفته که اپلیکیشن‌های خبری مثل Apple News و Google News، نام منبع اصلی خبر را کمرنگ نشان می‌دهند یا درست و واضح نشان نمی دهند. BBC می‌خواهد که این شرکت‌ها واضح‌تر مشخص کنند که خبرها از کجا آمده‌اند، چون اگر مردم ارزش خبر را به اپل یا گوگل نسبت دهند، اعتبار BBC زیر سؤال می‌رود. این موضوع برای BBC اهمیت دارد چون بیشتر بودجه‌اش از مردم بریتانیا تأمین می‌شود و باید ارزش کارش برای عموم دیده شود.

۱۴۰۴/۱/۱۹ ۰۹:۴۳:۲۴

رقابت ویزا و امریکن اکسپرس برای تصاحب کارت اعتباری اپل

شرکت ویزا پیشنهاد ۱۰۰ میلیون دلاری به اپل داده تا جایگزین مسترکارت در پردازش پرداخت‌های اپل کارت شود. علاوه بر ویزا، امریکن اکسپرس نیز به دنبال تصاحب این همکاری است.
اپل و گلدمن ساکس که از سال ۲۰۱۹ با مسترکارت همکاری داشتند، پایان این شراکت را به دلیل مشکلات مالی و استراتژیک گلدمن ساکس در بخش بانکداری مصرفی اعلام کرده‌اند. حالا چندین شرکت مالی، از جمله جی‌پی مورگان و بارکلیز، در رقابت برای همکاری جدید با اپل هستند.

۱۴۰۴/۱/۱۴ ۱۲:۰۶:۲۹

هوش مصنوعی و مشکل دروغگویی مدل‌های زبانی

محققان OpenAI دریافته‌اند که مدل‌های هوش مصنوعی مانند GPT-4o تمایل به دروغگویی دارند و حتی نظارت بر آنها مشکل را بدتر می‌کند. این مدل‌ها برای تولید پاسخ‌های اعتمادآمیز طراحی شده‌اند اما دقت علمی برایشان اهمیت ندارد و می‌توانند اطلاعات ساختگی تولید کنند. بررسی‌ها نشان می‌دهد اکثر شرکت‌ها هنوز ارزش واقعی از محصولات هوش مصنوعی کسب نکرده‌اند.

۱۴۰۴/۱/۱ ۲۲:۳۷:۰۹

جدال بر سر نتایج آزمون‌های هوش مصنوعی میان OpenAI و xAI

شرکت xAI به رهبری ایلان ماسک نتایج آزمون ریاضی مدل Grok 3 را منتشر کرد که با واکنش منفی کارکنان OpenAI مواجه شد. آنها معتقدند نمودار ارائه شده گمراه‌کننده است و نتایج واقعی مدل را نشان نمی‌دهد. اختلاف اصلی بر سر روش محاسبه امتیازات و حذف برخی پارامترهای مهم از نمودار است که می‌تواند تصویر متفاوتی از عملکرد مدل ارائه دهد.

۱۴۰۳/۱۲/۵ ۰۴:۱۲:۳۳

مرسدس-AMG پتروناس با خرید اعتبارات کربنی به دنبال کاهش انتشار کربن در مسابقات فرمول یک

تیم مرسدس-AMG پتروناس در راستای تحقق اهداف زیست محیطی، اقدام به خرید اعتبارات کربنی از شرکت Chestnut Carbon کرده است. این تیم که در صنعت اتومبیلرانی فعال است، برنامه دارد تا سال 2030 انتشار کربن خود را 75 درصد کاهش دهد و تا سال 2040 به صفر خالص کربن برسد. این اقدام شامل خرید 5500 تن اعتبار کربنی است که منجر به جنگلکاری در زمین‌های کشاورزی آمریکا خواهد شد.

۱۴۰۳/۱۱/۲۵ ۱۶:۱۳:۲۷