مدل‌های صوتی - صفحه 5 - اخبار فناوری - EcoFori

رقابت شدید هوش مصنوعی در بازار چت‌بات‌ها؛ ChatGPT همچنان پیشتاز

علی‌رغم محبوبیت چت‌جی‌پی‌تی، رقبای هوش مصنوعی مانند Gemini، Copilot، Claude و Grok در حال رشد سریع هستند. آمارها نشان می‌دهد که کاربران هوش مصنوعی به سرعت به سمت پلتفرم‌های جدید می‌روند و شرکت‌های مختلف با ارائه قابلیت‌های نوین در حال جذب مخاطب هستند.

۱۴۰۴/۱/۱۳ ۱۷:۰۱:۲۵
OpenAI در تدارک انتشار مدل زبانی باز پس از سال‌ها

OpenAI قصد دارد برای نخستین بار پس از GPT-2، یک مدل زبانی باز (Open Source) را در ماه‌های آینده منتشر کند. این شرکت از جامعه فناوری درخواست کرده تا در طراحی این مدل مشارکت کنند و نظرات خود را درباره قابلیت‌های مورد انتظار ارائه دهند. این اقدام در پاسخ به رقابت فزاینده شرکت‌های دیگر مانند DeepSeek و Meta است که رویکرد متن‌باز را در توسعه هوش مصنوعی در پیش گرفته‌اند.

۱۴۰۴/۱/۱۲ ۲۳:۳۳:۰۷
پایان نمایشگرهای لمسی در خودروها؟

صفحات نمایش لمسی در خودروهای مدرن با وجود محبوبیت اولیه، با چالش‌های جدی مواجه شده‌اند. تنها 15 درصد رانندگان در سال ۲۰۲۴ خواستار نمایشگر تمام عرض هستند و برندهایی مانند فولکس واگن به دلیل انتقادات، به دکمه‌های فیزیکی بازمی‌گردند. دلایل عمده نارضایتی رانندگان شامل مشکلات ایمنی و فنی از جمله حواس‌پرتی راننده و نقص‌های نرم‌افزاری که عملکردهای حیاتی خودرو را مختل می‌کنند است. راهکارهای جدید مانند نمایشگرهای بالای شیشه جلو از جمله صفحه هدآپ و کنترل صوتی با هوش مصنوعی، آینده سیستم‌های خودرو را شکل می‌دهند.

۱۴۰۴/۱/۱۱ ۱۰:۵۴:۰۳
هدفون‌های Star Wars با افکت صوتی شخصیت‌های محبوب منتشر شد

شرکت Audio-Technica هدفون‌های بی‌سیم ATH-CKS50TW2 را با طرح‌های اختصاصی شخصیت‌های محبوب جنگ ستارگان منتشر کرد. این هدفون‌ها با رنگ‌بندی و افکت صوتی شخصیت‌هایی مانند گروگو، دارث ویدر و R2-D2 طراحی شده‌اند و قیمت آنها 180 دلار است. هدفون‌ها قابلیت حذف نویز، شارژ بی‌سیم و عمر باتری 40 ساعته دارند.

۱۴۰۴/۱/۹ ۲۰:۳۷:۰۰
توقف پشتیبانی Google Assistant از Waze در iOS

شرکت Waze که در زمینه ناوبری و نقشه فعالیت دارد، قابلیت Google Assistant را برای کاربران iOS به دلیل مشکلات مداوم متوقف کرد. این شرکت وعده داده است که در آینده راه حل تعاملی صوتی پیشرفته‌ای را جایگزین خواهد کرد و همزمان روی ویژگی گزارش‌دهی مکالمه‌ای مبتنی بر هوش مصنوعی کار می‌کند.

۱۴۰۴/۱/۷ ۱۹:۴۸:۰۶
تغییر لهجه با هوش مصنوعی در تماس‌های صوتی توسط Krisp

استارتاپ Krisp با استفاده از هوش مصنوعی، قابلیت تغییر لهجه انگلیسی هندی به آمریکایی را در تماس‌های صوتی راه‌اندازی کرد. این فناوری با حفظ صدای اصلی گوینده، فقط واج‌ها را تغییر می‌دهد و مدعی است در آزمایشات، نرخ فروش را 26 درصد افزایش داده است.

۱۴۰۴/۱/۷ ۱۹:۴۸:۰۳
پیشرفت چین در هوش مصنوعی؛ کاهش فاصله فناوری با آمریکا

چین با نوآوری شرکت‌های فناوری مانند DeepSeek، فاصله خود با آمریکا در توسعه هوش مصنوعی را به سه ماه کاهش داده است. لی کای‌فو، مدیرعامل استارتاپ 01.AI، معتقد است تحریم‌های نیمه‌رسانا باعث شده شرکت‌های چینی راه‌حل‌های خلاقانه‌ای برای توسعه مدل‌های هوش مصنوعی پیدا کنند و در برخی زمینه‌ها حتی پیشرو شوند.

۱۴۰۴/۱/۶ ۱۱:۴۷:۲۷
بهبود قابلیت گفتگوی صوتی ChatGPT با کاهش وقفه‌های مکالمه

شرکت OpenAI نسخه جدیدی از قابلیت صوتی پیشرفته خود را منتشر کرد که به کاربران اجازه می‌دهد بدون قطع شدن مکالمه، مکث کنند. کاربران رایگان و اشتراک‌دهنده می‌توانند از این قابلیت جدید استفاده کنند که گفتگوی طبیعی‌تر و روان‌تری را فراهم می‌کند.

۱۴۰۴/۱/۶ ۱۰:۲۶:۱۸
آزمون جدید هوش مصنوعی ARC-AGI-2 چالش بزرگ برای مدل‌های هوش مصنوعی

بنیاد جایزه آرک با همکاری فرانسوا شولت، آزمون جدید ARC-AGI-2 را برای سنجش هوش عمومی مدل‌های هوش مصنوعی معرفی کرد. این آزمون که شامل حل پازل‌های پیچیده با الگوهای بصری است، تاکنون مدل‌های مختلف هوش مصنوعی از جمله GPT-4.5 و Claude 3.7 را با امتیازات بسیار پایین (حدود 1 درصد) مواجه کرده است. انسان‌ها در این آزمون حدود 60 درصد موفق بوده‌اند.

۱۴۰۴/۱/۶ ۱۰:۲۶:۱۵
افشای جزئیات جدید درباره درآمدزایی متا از مدل‌های هوش مصنوعی Llama

مدیرعامل متا پیش‌تر مدعی شده بود که کسب درآمد از مدل‌های هوش مصنوعی Llama در دستور کار این شرکت نیست، اما اسناد جدید نشان می‌دهد متا از طریق توافقات سهم درآمد با شرکای میزبان مانند AWS، انویدیا و گوگل کلود، از این مدل‌ها درآمدزایی می‌کند. این موضوع در حالی مطرح می‌شود که متا در پرونده شکایت حق تألیف، متهم به استفاده از کتاب‌های الکترونیکی دزدی برای آموزش مدل‌های Llama است.

۱۴۰۴/۱/۳ ۰۵:۰۹:۱۰
ارزیابی هوش مصنوعی با چالش‌های خلاقانه در محیط بازی Minecraft

یک دانش‌آموز دبیرستانی وب‌سایتی به نام MC-Bench ساخته که مدل‌های هوش مصنوعی را در ساخت سازه‌های Minecraft بر اساس درخواست کاربران به چالش می‌کشد. کاربران رأی می‌دهند که کدام مدل عملکرد بهتری داشته و پس از رأی‌گیری، مشخص می‌شود که کدام هوش مصنوعی آن را ساخته است.

این روش خلاقانه به ارزیابی خلاقیت و توانایی حل مسئله هوش مصنوعی کمک می‌کند، زیرا Minecraft محیطی آشنا و قابل‌ درک برای بسیاری از افراد است. شرکت‌هایی مانند گوگل، OpenAI و Anthropic از این پروژه حمایت کرده‌اند، چراکه می‌تواند دید بهتری درباره پیشرفت مدل‌های هوش مصنوعی و توانایی آن‌ها در انجام وظایف پیچیده‌تر ارائه دهد.

۱۴۰۴/۱/۲ ۰۱:۰۲:۱۰
تفاوت سانسور هوش مصنوعی چینی در زبان‌های انگلیسی و چینی

یک توسعه‌دهنده در شبکه اجتماعی X با بررسی مدل‌های هوش مصنوعی دریافت که برخی مدل‌های چینی و آمریکایی در پاسخگویی به سؤالات سیاسی حساس، رفتارهای متفاوتی در زبان‌های انگلیسی و چینی دارند. محققان معتقدند این تفاوت ناشی از محدودیت داده‌های آموزشی و سانسور در متون چینی است که باعث می‌شود مدل‌ها کمتر به انتقادات سیاسی پاسخ دهند.

۱۴۰۴/۱/۱ ۲۲:۴۷:۴۳
هوش مصنوعی و مشکل دروغگویی مدل‌های زبانی

محققان OpenAI دریافته‌اند که مدل‌های هوش مصنوعی مانند GPT-4o تمایل به دروغگویی دارند و حتی نظارت بر آنها مشکل را بدتر می‌کند. این مدل‌ها برای تولید پاسخ‌های اعتمادآمیز طراحی شده‌اند اما دقت علمی برایشان اهمیت ندارد و می‌توانند اطلاعات ساختگی تولید کنند. بررسی‌ها نشان می‌دهد اکثر شرکت‌ها هنوز ارزش واقعی از محصولات هوش مصنوعی کسب نکرده‌اند.

۱۴۰۴/۱/۱ ۲۲:۳۷:۰۹
فناوری جدید صوتی با امواج فراصوت، صدا را به‌صورت خصوصی و بدون هدفون پخش می‌کند

محققان فناوری جدیدی برای ایجاد “حباب‌های صوتی” خصوصی توسعه داده‌اند که امکان شنیدن صدا در یک نقطه خاص، بدون انتشار آن به محیط اطراف را فراهم می‌کند.
این فناوری از پرتوهای فراصوتی خودخم‌شونده و آکوستیک غیرخطی استفاده می‌کند. دو پرتو فراصوت با فرکانس‌های متفاوت که به‌تنهایی ساکت هستند، در محل تلاقی خود یک موج صوتی قابل شنیدن ایجاد می‌کنند. این روش می‌تواند تجربه‌های صوتی شخصی‌سازی‌شده‌ای را بدون نیاز به هدفون فراهم کند.
این تکنولوژی کاربردهایی مانند گوش دادن به موسیقی در خودرو بدون ایجاد مزاحمت یا ایجاد مناطق گفت‌وگوی خصوصی در دفاتر کاری یا محیط‌های نظامی را دارد.

۱۴۰۴/۱/۱ ۱۷:۵۳:۳۹
استارتاپ Pruna AI فریمورک فشرده‌سازی مدل‌های هوش مصنوعی را متن‌باز کرد

استارتاپ Pruna AI، متخصص در فشرده‌سازی مدل‌های هوش مصنوعی، فریمورک بهینه‌سازی خود را متن‌باز کرد. این فریمورک از روش‌هایی مانند کشینگ، برش (pruning)، کوانتایز کردن و تقطیر (distillation) برای کاهش حجم مدل‌ها بدون افت کیفیت استفاده می‌کند.

ویژگی کلیدی آن امکان ترکیب چندین روش فشرده‌سازی و ارزیابی کیفیت مدل پس از بهینه‌سازی است. Pruna AI می‌گوید این ابزار مانند Hugging Face برای مدل‌های ترنسفورمر، استانداردی برای فشرده‌سازی ایجاد می‌کند.

۱۴۰۴/۱/۱ ۱۲:۳۵:۴۹
مدل‌های استدلالی هوش مصنوعی می‌توانستند ۲۰ سال زودتر بیایند

نوآم براون از محققان ارشد OpenAI معتقد است مدل‌های استدلالی هوش مصنوعی می‌توانستند ۲۰ سال زودتر بیایند اگر محققان مسیر درستی را انتخاب می‌کردند. او در کنفرانس GTC انویدیا توضیح داد که انسان‌ها قبل از تصمیم‌گیری زیاد فکر می‌کنند و این رویکرد در مدل o1 با استفاده از استنتاج زمان اجرا (Test-time inference) پیاده‌سازی شده است.

براون تأکید کرد که آموزش اولیه همچنان مهم است اما در کنار استنتاج زمان اجرا استفاده می‌شود. او همچنین گفت که دانشگاه‌ها با تمرکز بر طراحی مدل‌ها و معیارهای ارزیابی، علی‌رغم کمبود منابع محاسباتی، می‌توانند تأثیرگذار باشند.

۱۴۰۴/۱/۱ ۰۱:۱۳:۳۹
پیشنهاد گروه سیاستگذاری کالیفرنیا برای نظارت بر هوش مصنوعی

یک گروه سیاست‌گذاری به سرپرستی فی-فی لی پیشنهاد کرده است که قانون‌گذاران علاوه بر خطرات فعلی، تهدیدات احتمالی آینده را نیز در تنظیم مقررات هوش مصنوعی در نظر بگیرند. این گزارش بر افزایش شفافیت در آزمایش‌های ایمنی، جمع‌آوری داده‌ها و امنیت مدل‌های هوش مصنوعی تأکید دارد و پیشنهاد می‌کند که توسعه‌دهندگان، نتایج تست‌های ایمنی را برای تأیید منتشر کنند.
این گروه هشدار داده است که شواهد کافی درباره استفاده از هوش مصنوعی در حملات سایبری یا ساخت سلاح‌های بیولوژیکی وجود ندارد، اما سیاست‌گذاری‌ها باید فراتر از تهدیدات فعلی، عواقب احتمالی آینده را نیز در نظر بگیرند.

۱۴۰۴/۱/۱ ۰۰:۵۱:۴۶
تردید رهبران فناوری در دستیابی هوش مصنوعی به هوش انسانی

برخی از رهبران فناوری مانند توماس ولف از Hugging Face و یان لوکان از متا، دیدگاه‌های محتاطانه‌ای درباره دستیابی هوش مصنوعی به هوش مصنوعی عمومی (AGI) دارند. آنها معتقدند مدل‌های زبانی کنونی توانایی خلاقیت و طرح سؤالات بدیع را ندارند و رسیدن به هوش فراانسانی نیازمند نوآوری‌های اساسی است.

۱۴۰۳/۱۲/۲۹ ۱۹:۰۶:۳۵
تلاش Anthropic برای افزودن قابلیت گفتگوی صوتی به هوش مصنوعی Claude

استارتاپ هوش مصنوعی Anthropic در حال توسعه قابلیت‌های صوتی برای دستیار هوش مصنوعی Claude است. مدیر ارشد محصول شرکت اعلام کرد که آنها در حال کار بر روی رابط کاربری طبیعی‌تر برای تعامل صوتی با هوش مصنوعی هستند و با شرکای مختلف از جمله Amazon گفتگو کرده‌اند.

۱۴۰۳/۱۲/۲۸ ۲۰:۵۴:۵۷
گوگل مدل‌ هوش مصنوعی برای کشف دارو معرفی می‌کند

گوگل در رویدادی در نیویورک از توسعه مدل‌های هوش مصنوعی TxGemma برای کشف دارو خبر داد. این مدل‌ها که اواخر ماه جاری منتشر می‌شوند، قادر به درک متن و ساختارهای شیمیایی، مولکولی و پروتئینی هستند.

به گفته مدیر سلامت گوگل، این فناوری می‌تواند به محققان در پیش‌بینی ایمنی و اثربخشی داروهای جدید کمک کند.

در حالی که بسیاری از شرکت‌ها روی استفاده از هوش مصنوعی در کشف دارو سرمایه‌گذاری کرده‌اند، نتایج هنوز متناقض است. با این حال، صنعت داروسازی و سرمایه‌گذاران همچنان به این حوزه علاقه‌مندند و تاکنون ۶۰ میلیارد دلار در این زمینه سرمایه‌گذاری شده است.

۱۴۰۳/۱۲/۲۸ ۲۰:۵۴:۵۰
تنسنت با معرفی مدل‌های هوش مصنوعی جدید، قابلیت تبدیل متن و تصویر به محیط سه‌بعدی را ارائه داد

شرکت تنسنت (Tencent)، غول فناوری چینی، پنج مدل متن‌باز هوش مصنوعی را برای تولید تصاویر سه‌بعدی معرفی کرد. این مدل‌ها با فناوری Hunyuan3D-2.0 می‌توانند ظرف ۳۰ ثانیه تصاویر سه‌بعدی با کیفیت بالا تولید کنند. این اقدام در راستای رقابت شرکت‌های چینی با شرکت‌های آمریکایی در حوزه هوش مصنوعی تولیدی است.

۱۴۰۳/۱۲/۲۸ ۱۳:۵۹:۵۹
ایلان ماسک، استارتاپ Hotshot را برای توسعه مدل‌های تولید ویدیو با هوش مصنوعی خریداری کرد

شرکت هوش مصنوعی xAI به رهبری ایلان ماسک، استارتاپ Hotshot را که در زمینه تولید ویدیوهای هوش مصنوعی فعالیت دارد خریداری کرد. این شرکت سه مدل بنیادین ویدیو ساخته و قصد دارد با استفاده از ابرکامپیوتر Colossus به توسعه فناوری تولید ویدیو ادامه دهد. این خرید احتمالاً برای رقابت با مدل‌های مشابه مانند Sora و Veo 2 است.

۱۴۰۳/۱۲/۲۷ ۲۳:۱۱:۲۱
آمازون با تغییر سیاست حریم خصوصی، دسترسی به صدای کاربران الکسا را آزاد می‌کند

آمازون سیاست جدیدی برای دستیار صوتی الکسا اتخاذ کرده که طبق آن از ۲۸ مارس، ضبط صدای کاربران به طور خودکار فعال خواهد شد. این تغییر برای توسعه قابلیت‌های هوش مصنوعی الکسا انجام می‌شود و کاربران دیگر نمی‌توانند جلوی ارسال صدای خود به فضای ابری آمازون را بگیرند. الکسا+ با قابلیت‌های جدید مانند سفارش مواد غذایی و تشخیص صدای کاربر همراه خواهد بود.

۱۴۰۳/۱۲/۲۷ ۱۹:۳۲:۴۶
گوگل با معرفی Chirp 3، پلتفرم توسعه هوش مصنوعی صوتی خود را گسترش می‌دهد

گوگل Chirp 3، رابط صوتی با کیفیت بالا را به پلتفرم Vertex AI اضافه می‌کند. این فناوری ، هشت صدای جدید را برای 31 زبان ارائه داده و کاربردهایی مانند دستیار صوتی، کتاب‌های گویا و تولید صدا برای ویدیو دارد. گوگل سعی در کنترل سوء استفاده از این فناوری با اعمال محدودیت هایی دارد و معتقد است هوش مصنوعی در دهه آینده تحولات مهمی ایجاد خواهد کرد.

۱۴۰۳/۱۲/۲۷ ۱۳:۵۱:۲۹
حذف گزینه پردازش محلی صدا در دستگاه‌های هوشمند آمازون

آمازون قابلیت پردازش محلی درخواست‌های صوتی در دستگاه‌های Echo را حذف می‌کند و تمامی ضبط‌های صوتی کاربران به فضای ابری این شرکت ارسال خواهد شد. این تصمیم در راستای گسترش قابلیت‌های هوش مصنوعی Alexa با استفاده از پردازش ابری اتخاذ شده است.

۱۴۰۳/۱۲/۲۶ ۲۳:۰۹:۳۹
ناتوانی هوش مصنوعی در درک زمان؛ شکست مدل‌های زبانی در خواندن ساعت و تقویم

پژوهشگران دانشگاه ادینبورگ در مطالعه‌ای نشان دادند که مدل‌های زبانی هوش مصنوعی چندرسانه‌ای در تشخیص زمان از تصاویر ساعت و تقویم بسیار ضعیف عمل می‌کنند. این مدل‌ها، از جمله GPT-4o و Gemini، کمتر از ۲۵ درصد در خواندن ساعت و حدود ۸۰ درصد در درک تقویم موفق بودند که نشان‌دهنده محدودیت جدی هوش مصنوعی در درک مفاهیم زمانی است.

۱۴۰۳/۱۲/۲۶ ۱۷:۰۵:۰۴
تأخیر در هوش مصنوعی سیری اپل؛ سقوط روحیه تیم

اپل با به تعویق انداختن برنامه‌های هوش مصنوعی سیری، نه تنها باعث افت ارزش سهام شرکت شد بلکه روحیه تیم سیری را نیز تضعیف کرد. روبی واکر، مدیر ارشد بخش سیری، در جلسه‌ای تیمی به کارکنان اذعان کرد که شرایط مطلوب نیست و تبلیغات قبلی اپل درباره ویژگی‌های جدید، انتظارات را برآورده نکرده است.

۱۴۰۳/۱۲/۲۵ ۲۱:۲۱:۲۱
محدودیت‌های حقوقی مدل‌های هوش مصنوعی باز گوگل و متا

گوگل و متا با انتشار مدل‌های هوش مصنوعی باز Gemma و Llama، با محدودیت‌های حقوقی پیچیده‌ای روبرو هستند که استفاده تجاری از این مدل‌ها را دشوار می‌کند. این شرکت‌ها با وجود معرفی مدل‌ها به عنوان متن باز (Open Source) شروط سفارشی و غیراستاندارد در مجوزها گذاشته‌اند که برای شرکت‌های کوچک و بزرگ چالش‌برانگیز است و می‌تواند مانع استفاده گسترده از این مدل‌ها شود.

۱۴۰۳/۱۲/۲۵ ۰۰:۳۲:۲۶
رونمایی از مدل هوش مصنوعی صوتی با قابلیت تولید صدای انسان

شرکت Sesame مدل پایه صوتی CSM-1B با یک میلیارد پارامتر را منتشر کرد که زیرساخت دستیار صوتی Maya است. این مدل با مجوز Apache 2.0 قابل استفاده تجاری بوده و توانایی تولید کدهای صوتی از متن و ورودی صدا را دارد. مدل قادر به تولید صداهای مختلف است اما محدودیت‌هایی در زبان‌های غیرانگلیسی دارد.

۱۴۰۳/۱۲/۲۴ ۰۲:۵۹:۳۸
گوگل از قابلیت Auracast در گوشی‌های اندروید رونمایی کرد

گوگل فناوری جدید Bluetooth به نام Auracast را معرفی کرد که به افراد دارای مشکلات شنوایی کمک می‌کند تا در محیط‌های پرسر و صدا مانند ایستگاه راه‌آهن یا کنسرت، پخش صوتی را مستقیماً از طریق سمعک یا هدفون دریافت کنند. این قابلیت ابتدا برای گوشی‌های سامسونگ Galaxy و Google Pixel با تنظیمات شخصی‌سازی صدا در دسترس خواهد بود.

۱۴۰۳/۱۲/۲۴ ۰۲:۴۹:۲۸

نمایش بیشتر