-
بهبود قابلیت گفتگوی صوتی ChatGPT با کاهش وقفههای مکالمه
شرکت OpenAI نسخه جدیدی از قابلیت صوتی پیشرفته خود را منتشر کرد که به کاربران اجازه میدهد بدون قطع شدن مکالمه، مکث کنند. کاربران رایگان و اشتراکدهنده میتوانند از این قابلیت جدید استفاده کنند که گفتگوی طبیعیتر و روانتری را فراهم میکند.
۱۴۰۴/۱/۶ ۱۰:۲۶:۱۸ -
رونمایی از مدل هوش مصنوعی صوتی با قابلیت تولید صدای انسان
شرکت Sesame مدل پایه صوتی CSM-1B با یک میلیارد پارامتر را منتشر کرد که زیرساخت دستیار صوتی Maya است. این مدل با مجوز Apache 2.0 قابل استفاده تجاری بوده و توانایی تولید کدهای صوتی از متن و ورودی صدا را دارد. مدل قادر به تولید صداهای مختلف است اما محدودیتهایی در زبانهای غیرانگلیسی دارد.
۱۴۰۳/۱۲/۲۴ ۰۲:۵۹:۳۸ -
متا در آستانه معرفی مدل هوش مصنوعی Llama 4 با قابلیتهای صوتی پیشرفته
شرکت متا در حال آمادهسازی مدل Llama 4 است که با تمرکز بر قابلیتهای صوتی پیشرفته طراحی شده و کاربران میتوانند در حین گفتگو با مدل، گفتار مدل را قطع کنند. (یعنی وقتی مدل در حال صحبت است با حرف زدن صحبتش قطع می شود٫ مشابه نسخه صوتی chatgpt و live جمینی گوگل) . این مدل به عنوان یک مدل "همهکاره" قادر به تفسیر و تولید متن، گفتار و سایر انواع دادهها خواهد بود. رقابت با مدلهای هوش مصنوعی چینی DeepSeek، متا را به توسعه سریعتر Llama واداشته است.
۱۴۰۳/۱۲/۱۷ ۱۸:۵۶:۲۰ -
همان قیمت، امکانات بیشتر! AirPods Pro 3 در مقایسه با Pro ۲
اپل از ایرپادز پرو ۳ رونمایی کرده؛ هدفونی که نسبت به نسل قبل پیشرفت زیادی داشته است. قابلیت حذف نویز فعال (ANC) در این مدل دو برابر قویتر از ایرپادز پرو ۲ عمل میکند و سریهای فومی جدید هم باعث میشوند صداهای مزاحم بیشتری گرفته شوند. 🎧🔇
کیفیت صدا نیز ارتقا یافته و با فناوری جدید EQ تطبیقی، باس قویتر و صدای فراگیرتری ارائه میشود. باتری هم بهبود یافته و حالا با ANC روشن تا ۸ ساعت و با حالت شفافیت تا ۱۰ ساعت شارژدهی دارد؛ یعنی حدود یکسوم بیشتر از نسل قبل. 🔋🎶
ایرپادز پرو ۳ امکانات تازهای مثل اندازهگیری ضربان قلب و ترجمه زنده مکالمات را هم به همراه دارد. همچنین اپل با بیش از ۱۰ هزار اسکن گوش و ۱۰۰ هزار ساعت تحقیق، طراحی سریها را بازبینی کرده و تعداد سایزها را از چهار به پنج افزایش داده تا راحتی بیشتری فراهم شود. 🩺🌍
با وجود همه این تغییرات، قیمت همچنان همان ۲۵۰ دلار نسل قبل باقی مانده است؛ یعنی قابلیتهای بیشتر با همان هزینه. ✅💵۱۴۰۴/۶/۲۰ ۱۰:۰۱:۲۸ -
متا ۲۰۰ میلیون دلار برای جذب استعداد اپل هزینه کرد!
🔹 متا با صرف ۲۰۰ میلیون دلار برای جذب یک متخصص هوش مصنوعی از اپل با نام «رومینگ پنگ» (Ruoming Pang) و استخدام چندین نفر از OpenAI، تلاش دارد دستیار صوتی عینکهای هوشمند خود را ارتقا دهد. ✅🕶️
هدف متا، بهبود تجربه کار با عینکهای Ray-Ban با استفاده از مدلهای زبانی پیشرفته است؛ چون این دستگاهها فاقد نمایشگرند و تعامل با آنها به عملکرد دستیار صوتی وابسته است. ✅🤖
این رویکرد میتواند متا را در رقابت عینکهای هوشمند از رقبایی مانند اپل جلو بیندازد. ✅🚀۱۴۰۴/۴/۲۳ ۱۲:۱۷:۵۶ -
ChatGPT با لحنی انسانیتر از همیشه
قابلیت گفتوگوی صوتی در ChatGPT با ارتقاء جدیدی همراه شده که صدای آن را طبیعیتر، روانتر و احساسیتر از قبل میکند. 🎙️
بهگفته OpenAI، نسخه جدید «صدای پیشرفته» با لحن واقعیتر، مکثهای طبیعی، تأکید مناسب و بیان دقیقتر احساساتی مانند همدلی یا طعنه طراحی شده است. 🧠
ویژگی ترجمه زنده نیز بهبود یافته و اکنون کاربران میتوانند بدون وقفه، گفتوگوهای چندزبانه را ادامه دهند تا زمانی که بخواهند زبان را تغییر دهند یا متوقف کنند. 🌍
این قابلیت برای همه کاربران سرویس پولی در تمامی پلتفرمها فعال است، هرچند ممکن است گاهی افت کیفیت صوتی یا خطاهای محدود مانند صداهای غیرمنتظره یا موسیقی پسزمینه رخ دهد. ⚠️۱۴۰۴/۳/۲۰ ۱۸:۲۷:۱۹ -
Anthropic قابلیت مکالمه صوتی را به چتبات Claude اضافه کرد
🗣️ شرکت Anthropic حالت Voice Mode را برای چتبات Claude در نسخه موبایل فعال کرد! کاربران حالا میتوانند با Claude گفتگوهای صوتی انجام دهند و پاسخها را با صدا بشنوند. 🎧📱
این قابلیت فعلاً به زبان انگلیسی و در حالت آزمایشی عرضه شده و امکان سوییچ بین متن و صدا، انتخاب از بین ۵ صدای مختلف و دیدن خلاصه گفتگو را فراهم میکند. 🔄📝۱۴۰۴/۳/۸ ۰۲:۵۷:۱۸ -
گوگل قابلیت صوتیسازی سند با هوش مصنوعی را به ۷۶ زبان جدید گسترش داد
گوگل قابلیت «Audio Overviews» در NotebookLM را که پادکستهایی هوش مصنوعیمحور از اسناد کاربران تولید میکند، به ۷۶ زبان جدید گسترش داده است. کاربران اکنون میتوانند زبان تولید پادکستها را خودشان انتخاب کنند، که امکان تولید محتوای چندزبانه یا مطالب آموزشی شخصیسازیشده را فراهم میکند. این ابزار برای مثال به دانشآموزان کمک میکند که خلاصه محتوای منابع مختلف را به زبان دلخواه خود گوش دهند. زبانهای جدید شامل فارسی، عربی، فرانسوی، چینی، ترکی، اسپانیایی، و بسیاری دیگر میشود.
۱۴۰۴/۲/۱۱ ۰۹:۴۵:۱۴ -
واتساپ قابلیت جدید حریم خصوصی پیشرفته را معرفی کرد
واتساپ قابلیتی به نام “حریم خصوصی پیشرفته چت” اضافه کرده که جلوی خروجی گرفتن از چت، دانلود خودکار فایلها و استفاده از Meta AI را میگیرد. این ویژگی برای گفتگوهای حساس و گروههایی که افراد شناخت زیادی از هم ندارند مفید است. فعلاً گرفتن اسکرینشات ممکن است، اما شاید در آینده محدود شود. برای فعالسازی کافی است وارد تنظیمات چت شوید و گزینه Advanced Chat Privacy را روشن کنید. این ویژگی بهتدریج برای کاربران در چتهای فردی و گروهی فعال خواهد شد.
۱۴۰۴/۲/۵ ۰۰:۲۲:۵۰ -
رونمایی بایدو از دستیار هوش مصنوعی Xinxiang با قابلیتهای پیشرفته
بایدو، غول موتور جستجوی چین، دستیار هوش مصنوعی Xinxiang را راهاندازی کرد که قابلیت انجام وظایفی مانند تحلیل اطلاعات و برنامهریزی سفر را با کارایی بیشتر نسبت به سرویسهای چتبات دارد. این دستیار هماکنون تنها برای گوشیهای هوشمند اندرویدی در دسترس است و نسخه iOS آن در حال بررسی است.
۱۴۰۴/۲/۴ ۱۰:۵۳:۲۸ -
رونمایی OpenAI از مدلهای هوش مصنوعی o3 و o4-mini با قابلیتهای پیشرفته استدلال
شرکت OpenAI دو مدل جدید هوش مصنوعی به نام o3 و o4-mini معرفی کرده که میتوانند قبل از پاسخ دادن، فکر کنند. مدل o3 پیشرفتهترین مدل این شرکت است و در آزمونهای تخصصی، نتایج بسیار خوبی در ریاضی، کدنویسی، علوم و درک تصویر داشته است. مدل o4-mini هم با قیمت پایینتر، عملکرد مناسبی ارائه میدهد. این مدلها میتوانند تصاویر را تحلیل کنند، کد اجرا کنند و اخبار روز را جستوجو کنند. کاربران نسخه پولی ChatGPT و توسعهدهندگان از امروز به این مدلها دسترسی دارند. همچنین نسخه قویتر o3 با نام o3-pro نیز بهزودی عرضه میشود.
۱۴۰۴/۱/۲۸ ۲۳:۰۵:۲۲ -
بروزرسانی جدید واتساپ؛ از تماس تصویری باکیفیتتر تا اسکن اسناد و خلاصه پیامهای صوتی
واتساپ در جدیدترین بروزرسانی خود چندین قابلیت جدید به بخشهای چت، تماس و کانالها اضافه کرده است. از این پس، در گروهها میتوان دید چه کسانی آنلاین هستند، نوتیفیکیشنها را فقط برای پیامهای مهم تنظیم کرد، و در تماس تصویری روی آیفون ، بزرگنمایی (زوم) انجام داد.
کاربران آیفون همچنین میتوانند با استفاده از گزینه جدید، اسناد خود را اسکن و ارسال کنند.
در تماسهای تصویری، کیفیت افزایش یافته و قطع شدن یا فریز شدن تصویر کمتر خواهد شد. همچنین امکان ایجاد رویداد (event) در چتهای دو نفره، پاسخ به دعوتها با گزینه “شاید”، افزودن همراه و زمان پایان رویداد فراهم شده است.
در بخش کانالها نیز، ادمینها میتوانند ویدیوهای کوتاه ضبط و منتشر کنند، کد QR مخصوص بسازند، و خلاصه نوشتاری پیامهای صوتی را برای دنبالکنندگان ارسال کنند.۱۴۰۴/۱/۲۲ ۱۹:۰۶:۲۶ -
هزینههای سنگین مدلهای هوش مصنوعی با قابلیت استدلال
مدلهای جدید هوش مصنوعی که توانایی «استدلال» و حل مسائل مرحلهبهمرحله را دارند، عملکرد بهتری نسبت به مدلهای قبلی نشان میدهند، اما آزمایش و ارزیابی آنها بسیار پرهزینه شده است. برای مثال، بررسی یکی از مدلهای OpenAI بیش از ۲۷۰۰ دلار هزینه داشته، در حالی که ارزیابی مدلهای معمولی کمتر از ۱۰۰ دلار خرج دارند.
دلیل اصلی این هزینه بالا، تولید حجم زیادی از متن (توکن) توسط این مدلها در هنگام پاسخ دادن به سوالات پیچیده است. هرچه مدل قویتر باشد، آزمایشش هم گرانتر میشود. کارشناسان هشدار میدهند که این روند میتواند باعث شود فقط شرکتهای بزرگ توان بررسی این مدلها را داشته باشند و شفافیت علمی کاهش یابد.۱۴۰۴/۱/۲۲ ۱۸:۵۵:۵۸ -
معرفی استارتاپ Deep Cogito با مدل هوش مصنوعی با قابلیت استدلال
استارتاپ تازهوارد Deep Cogito از پروژه مخفی خود پرده برداشت و خانوادهای از مدلهای هوش مصنوعی به نام Cogito 1 را معرفی کرد که میتوانند بین دو حالت عادی و «تفکر منطقی» جابهجا شوند. این ویژگی به آنها اجازه میدهد برای سوالات ساده سریع پاسخ دهند، و برای مسائل پیچیده، مانند انسان فکر کنند و مرحلهبهمرحله به جواب برسند.
این مدلها ترکیبی از دو سبک مختلف هوش مصنوعی هستند و گفته میشود عملکرد بهتری نسبت به مدلهای مشابه از شرکتهایی مثل Meta و DeepSeek دارند. بزرگترین مدل آنها، Cogito 70B، در برخی تستها حتی از مدلهای قدرتمند بازار هم پیشی گرفته است.
این شرکت تنها در حدود ۷۵ روز این مدلها را توسعه داده و هدف نهایی آن، ساخت هوش مصنوعی است که بتواند بهتر از انسان عمل کند. تمامی مدلها به صورت رایگان از طریق فضای ابری قابل استفاده هستند.۱۴۰۴/۱/۲۱ ۱۱:۳۵:۲۵ -
ورود آمازون به رقابت هوش صوتی با مدل جدید Nova Sonic
آمازون از یک مدل هوش مصنوعی صوتی جدید به نام Nova Sonic رونمایی کرد؛ مدلی که میتواند صدا را بسیار طبیعی تولید و گفتوگوها را بهتر از قبل درک کند. این مدل، نسبت به دستیارهای صوتی قدیمی مانند الکسا و سیری، بسیار پیشرفتهتر عمل میکند و حتی با مدلهای پیشرفتهی شرکتهایی مثل OpenAI و گوگل رقابت میکند.
این مدل بهگونهای طراحی شده که مکالمات را روانتر و با درک بهتری از صدا، حتی در محیطهای پر سر و صدا یا هنگام لکنت، پردازش کند. آمازون میگوید این مدل تا ۸۰٪ ارزانتر از برخی رقباست و سرعت پاسخدهی بالاتری هم دارد.۱۴۰۴/۱/۲۰ ۱۷:۳۱:۵۱ -
رونمایی IBM از نسل جدید ابرکامپیوتر با قابلیتهای هوش مصنوعی پیشرفته
شرکت IBM نسل جدید ابرکامپیوتر z17 را معرفی کرد که با پردازنده Telum II طراحی شده و قابلیت پردازش 450 میلیارد عملیات هوش مصنوعی در روز را دارد. این سیستم برای بیش از 250 کاربرد هوش مصنوعی مناسب بوده و از کارایی انرژی بالایی برخوردار است. IBM این محصول را پس از پنج سال تحقیق و با نظرسنجی از بیش از 100 مشتری توسعه داده است.
۱۴۰۴/۱/۲۰ ۱۴:۴۶:۵۶ -
متا مدلهای هوش مصنوعی Llama 4 را با قابلیتهای پیشرفته معرفی کرد
شرکت متا چهار مدل جدید هوش مصنوعی Llama 4 را منتشر کرد که شامل Scout، Maverick و Behemoth میشوند. این مدلها با معماری ترکیبی متخصصان آموزش دیده و قابلیت پردازش تصویر، متن و ویدیو را دارند. Maverick با 400 میلیارد پارامتر در برخی آزمونها از مدلهای GPT-4o و Gemini 2.0 پیشی گرفته و Scout با پنجره متنی 10 میلیون توکن، توانایی پردازش اسناد بسیار طولانی را دارد.
۱۴۰۴/۱/۱۸ ۰۰:۰۲:۲۳ -
مایکروسافت 50 ساله شد و قابلیتهای جدید هوش مصنوعی Copilot را معرفی کرد
مایکروسافت به مناسبت پنجاهمین سالگرد تأسیس، قابلیتهای جدیدی را به دستیار هوش مصنوعی Copilot افزوده است. این هوش مصنوعی اکنون میتواند در اکثر وبسایتها اقدام به رزرو بلیت و رستوران کند، تصاویر را تحلیل کند، جزئیات شخصی کاربر را به خاطر بسپارد و حتی پادکست مجازی تولید کند. Copilot همچنین قابلیت جستجو و سازماندهی فایلها در سیستم عامل ویندوز را نیز دارد.
۱۴۰۴/۱/۱۶ ۲۰:۳۳:۱۵ -
رونمایی Midjourney از مدل هوش مصنوعی جدید V7 با قابلیتهای پیشرفته
میدجرنی، سرویس تولید تصویر هوش مصنوعی، مدل جدید V7 را معرفی کرد که با معماری متفاوت و قابلیت شخصیسازی، کیفیت تصاویر را به طور چشمگیری بهبود بخشیده است. این مدل در دو نسخه Turbo و Relax با سرعت بالاتر و قابلیت ایجاد تصاویر با جزئیات دقیقتر طراحی شده و در مرحله آلفا قرار دارد.
۱۴۰۴/۱/۱۶ ۰۹:۳۴:۴۹ -
استارتاپ Phonic؛ راهکار جدید برای بهبود کیفیت صدای مصنوعی هوش مصنوعی
شرکت Phonic، که توسط دو فارغالتحصیل MIT تأسیس شده، در حال توسعهی فناوری پیشرفتهای برای بهبود کیفیت و اطمینانپذیری صدای مصنوعی است. برخلاف سایر شرکتها که مدلهای مختلف را به هم متصل میکنند، Phonic مدلهای خود را از صفر و به صورت کامل و یکپارچه آموزش میدهد. این روش باعث کاهش تأخیر، افزایش دقت و کاهش هزینههای اجرا میشود.
مدلهای Phonic میتوانند حتی در شرایطی که صداها نامفهوم، دارای لهجههای مختلف یا نویزدار هستند، عملکرد بهتری داشته باشند.۱۴۰۴/۱/۱۶ ۰۱:۵۹:۰۰ -
تسلا قابلیت رانندگی هوشمند در چین را راهاندازی میکند
تسلا شرکت خودروسازی و فناوری آمریکایی، اعلام کرد پس از تکمیل تأییدیه نرمافزاری، قابلیت رانندگی هوشمند خود را در چین عرضه خواهد کرد. این اقدام پس از آن صورت میگیرد که وزارت صنعت چین، مقررات جدیدی برای ارتقاهای نرمافزاری رانندگی خودکار وضع کرده است.
۱۴۰۴/۱/۵ ۲۲:۰۱:۵۴ -
شارژ سریع خودروی برقی BYD با قابلیت افزایش ۲۴۸ مایل برد در ۵ دقیقه
شرکت BYD خودروی برقی Han L را معرفی کرد که با فناوری باتری LFP و سیستم الکتریکی ۹۴۵ ولتی، قادر به شارژ سریع تا یک مگاوات است. این خودرو میتواند در ۵ دقیقه حدود ۱۶۰ مایل برد اضافه کند، اما محدودیتهای تعرفهای فعلاً مانع از ورود آن به بازار آمریکا میشود.
۱۴۰۴/۱/۳ ۰۵:۰۹:۱۲ -
OpenAI رونمایی از مدلهای جدید هوش مصنوعی گفتار و رونویسی
شرکت OpenAI مدلهای جدید “gpt-4o-mini-tts” و “gpt-4o-transcribe” را معرفی کرد که دقت و کیفیت بالاتری دارند. مدل TTS صدایی طبیعیتر و قابل تنظیم ارائه میدهد، درحالیکه مدل STT جایگزین Whisper شده و دقت بیشتری در تشخیص گفتار دارد. برخلاف Whisper، این مدلها متنباز نخواهند بود.
۱۴۰۴/۱/۲ ۱۲:۲۲:۴۸ -
تلاش Anthropic برای افزودن قابلیت گفتگوی صوتی به هوش مصنوعی Claude
استارتاپ هوش مصنوعی Anthropic در حال توسعه قابلیتهای صوتی برای دستیار هوش مصنوعی Claude است. مدیر ارشد محصول شرکت اعلام کرد که آنها در حال کار بر روی رابط کاربری طبیعیتر برای تعامل صوتی با هوش مصنوعی هستند و با شرکای مختلف از جمله Amazon گفتگو کردهاند.
۱۴۰۳/۱۲/۲۸ ۲۰:۵۴:۵۷ -
گوگل با معرفی Chirp 3، پلتفرم توسعه هوش مصنوعی صوتی خود را گسترش میدهد
گوگل Chirp 3، رابط صوتی با کیفیت بالا را به پلتفرم Vertex AI اضافه میکند. این فناوری ، هشت صدای جدید را برای 31 زبان ارائه داده و کاربردهایی مانند دستیار صوتی، کتابهای گویا و تولید صدا برای ویدیو دارد. گوگل سعی در کنترل سوء استفاده از این فناوری با اعمال محدودیت هایی دارد و معتقد است هوش مصنوعی در دهه آینده تحولات مهمی ایجاد خواهد کرد.
۱۴۰۳/۱۲/۲۷ ۱۳:۵۱:۲۹ -
گوگل از قابلیت Auracast در گوشیهای اندروید رونمایی کرد
گوگل فناوری جدید Bluetooth به نام Auracast را معرفی کرد که به افراد دارای مشکلات شنوایی کمک میکند تا در محیطهای پرسر و صدا مانند ایستگاه راهآهن یا کنسرت، پخش صوتی را مستقیماً از طریق سمعک یا هدفون دریافت کنند. این قابلیت ابتدا برای گوشیهای سامسونگ Galaxy و Google Pixel با تنظیمات شخصیسازی صدا در دسترس خواهد بود.
۱۴۰۳/۱۲/۲۴ ۰۲:۴۹:۲۸ -
قابلیت ترجمه زنده گفتگو در ایرپادهای اپل
اپل در حال برنامهریزی برای افزودن قابلیت ترجمه زنده مکالمات در ایرپادهای خود است. این ویژگی جدید همزمان با بهروزرسانی نرمافزاری iOS 19 در سال جاری عرضه خواهد شد. این قابلیت پیشتر در محصولات رقیب مانند Pixel Buds گوگل وجود داشته است.
۱۴۰۳/۱۲/۲۴ ۰۰:۳۶:۰۶ -
انتشار نسخه RTX بازی Half-Life 2 با قابلیتهای گرافیکی پیشرفته
نسخه RTX بازی کلاسیک Half-Life 2 با فناوریهای پیشرفته گرافیکی نظیر پرتوزایی و بهبود بافتها توسط استودیو Orbifold در حال توسعه است. علاقهمندان میتوانند از هفته آینده نسخه نمایشی آن را در استیم دانلود کنند. این نسخه با استفاده از ابزارهای Nvidia امکان بازسازی گرافیکی کامل بازی را فراهم میکند.
۱۴۰۳/۱۲/۲۳ ۱۹:۱۱:۱۸ -
نمایش فناوری پیشرفته پانوراما در خودروهای BMW با قابلیت شخصیسازی کامل
شرکت BMW در نمایشگاه CES 2025، سیستم Panoramic Vision را معرفی کرد که یک نمایشگر هوشمند بر روی شیشه جلوی خودرو است. این سیستم اطلاعات رانندگی را به صورت کاملاً شخصیسازی شده نمایش میدهد و امکان تنظیم محل نمایش اطلاعات برای راننده و سرنشینان را فراهم میکند. با استفاده از سیستم عامل اندرویدی اختصاصی BMW، این فناوری قابلیتهای پیشرفتهای در زمینه تعاملات خودرو ارائه میدهد.
۱۴۰۳/۱۲/۱۸ ۱۵:۴۳:۰۴ -
تأخیر در بهبود هوش مصنوعی دستیار صوتی سیری اپل تا سال ۲۰۲۶
اپل اعلام کرد که بهبودهای هوش مصنوعی برای دستیار صوتی سیری که شامل قابلیتهای شخصیسازی و انجام اقدامات در اپلیکیشنها میشود، تا سال ۲۰۲۶ به تعویق افتاده است. این شرکت پیشتر قصد داشت این ویژگیها را در سال ۲۰۲۵ ارائه دهد و در حال ساخت زیرساخت رایانش ابری با تراشههای اختصاصی برای حفظ حریم خصوصی کاربران است.
۱۴۰۳/۱۲/۱۷ ۲۱:۵۴:۰۲



