-
OpenAI رونمایی از مدلهای جدید هوش مصنوعی گفتار و رونویسی
شرکت OpenAI مدلهای جدید “gpt-4o-mini-tts” و “gpt-4o-transcribe” را معرفی کرد که دقت و کیفیت بالاتری دارند. مدل TTS صدایی طبیعیتر و قابل تنظیم ارائه میدهد، درحالیکه مدل STT جایگزین Whisper شده و دقت بیشتری در تشخیص گفتار دارد. برخلاف Whisper، این مدلها متنباز نخواهند بود.
۱۴۰۴/۱/۲ ۱۲:۲۲:۴۸ -
فناوری جدید صوتی با امواج فراصوت، صدا را بهصورت خصوصی و بدون هدفون پخش میکند
محققان فناوری جدیدی برای ایجاد “حبابهای صوتی” خصوصی توسعه دادهاند که امکان شنیدن صدا در یک نقطه خاص، بدون انتشار آن به محیط اطراف را فراهم میکند.
این فناوری از پرتوهای فراصوتی خودخمشونده و آکوستیک غیرخطی استفاده میکند. دو پرتو فراصوت با فرکانسهای متفاوت که بهتنهایی ساکت هستند، در محل تلاقی خود یک موج صوتی قابل شنیدن ایجاد میکنند. این روش میتواند تجربههای صوتی شخصیسازیشدهای را بدون نیاز به هدفون فراهم کند.
این تکنولوژی کاربردهایی مانند گوش دادن به موسیقی در خودرو بدون ایجاد مزاحمت یا ایجاد مناطق گفتوگوی خصوصی در دفاتر کاری یا محیطهای نظامی را دارد.۱۴۰۴/۱/۱ ۱۷:۵۳:۳۹ -
شکایت از OpenAI به دلیل انتشار اطلاعات نادرست در ChatGPT
گروه حقوقی Noyb از OpenAI شکایت کرده، زیرا ChatGPT ادعا کرده که فردی در نروژ به قتل فرزندانش محکوم شده است. طبق قوانین GDPR اروپا، اطلاعات شخصی باید دقیق باشند و کاربران حق اصلاح دادههای نادرست را دارند، اما OpenAI فقط مسدودسازی پاسخها را پیشنهاد میدهد. Noyb میگوید هشدار درباره احتمال خطا کافی نیست و خواستار اقدام جدی نهادهای نظارتی اروپا علیه OpenAI شده است.
این موضوع نقض قوانین محافظت از دادههای اروپا محسوب میشود و میتواند جریمههای سنگینی برای OpenAI به همراه داشته باشد.۱۴۰۴/۱/۱ ۱۲:۳۵:۴۷ -
تلاش Anthropic برای افزودن قابلیت گفتگوی صوتی به هوش مصنوعی Claude
استارتاپ هوش مصنوعی Anthropic در حال توسعه قابلیتهای صوتی برای دستیار هوش مصنوعی Claude است. مدیر ارشد محصول شرکت اعلام کرد که آنها در حال کار بر روی رابط کاربری طبیعیتر برای تعامل صوتی با هوش مصنوعی هستند و با شرکای مختلف از جمله Amazon گفتگو کردهاند.
۱۴۰۳/۱۲/۲۸ ۲۰:۵۴:۵۷ -
راهاندازی ChatGPT Connectors؛ اتصال هوشمندانه اسلک و گوگل درایو به چتجیپیتی
شرکت OpenAI در حال آمادهسازی ویژگی جدیدی با نام ChatGPT Connectors است که به کاربران تجاری اجازه میدهد اطلاعات درون سازمانی خود از اسلک و گوگل درایو را به چتجیپیتی متصل کنند. این سرویس با استفاده از مدل GPT-4o امکان جستجو و پاسخگویی هوشمندانه به سوالات کارمندان را با استفاده از اسناد و مکالمات داخلی فراهم میکند و امنیت اطلاعات را نیز تضمین مینماید.
۱۴۰۳/۱۲/۲۷ ۲۳:۱۱:۲۳ -
آمازون با تغییر سیاست حریم خصوصی، دسترسی به صدای کاربران الکسا را آزاد میکند
آمازون سیاست جدیدی برای دستیار صوتی الکسا اتخاذ کرده که طبق آن از ۲۸ مارس، ضبط صدای کاربران به طور خودکار فعال خواهد شد. این تغییر برای توسعه قابلیتهای هوش مصنوعی الکسا انجام میشود و کاربران دیگر نمیتوانند جلوی ارسال صدای خود به فضای ابری آمازون را بگیرند. الکسا+ با قابلیتهای جدید مانند سفارش مواد غذایی و تشخیص صدای کاربر همراه خواهد بود.
۱۴۰۳/۱۲/۲۷ ۱۹:۳۲:۴۶ -
گوگل با معرفی Chirp 3، پلتفرم توسعه هوش مصنوعی صوتی خود را گسترش میدهد
گوگل Chirp 3، رابط صوتی با کیفیت بالا را به پلتفرم Vertex AI اضافه میکند. این فناوری ، هشت صدای جدید را برای 31 زبان ارائه داده و کاربردهایی مانند دستیار صوتی، کتابهای گویا و تولید صدا برای ویدیو دارد. گوگل سعی در کنترل سوء استفاده از این فناوری با اعمال محدودیت هایی دارد و معتقد است هوش مصنوعی در دهه آینده تحولات مهمی ایجاد خواهد کرد.
۱۴۰۳/۱۲/۲۷ ۱۳:۵۱:۲۹ -
حذف گزینه پردازش محلی صدا در دستگاههای هوشمند آمازون
آمازون قابلیت پردازش محلی درخواستهای صوتی در دستگاههای Echo را حذف میکند و تمامی ضبطهای صوتی کاربران به فضای ابری این شرکت ارسال خواهد شد. این تصمیم در راستای گسترش قابلیتهای هوش مصنوعی Alexa با استفاده از پردازش ابری اتخاذ شده است.
۱۴۰۳/۱۲/۲۶ ۲۳:۰۹:۳۹ -
تأخیر در هوش مصنوعی سیری اپل؛ سقوط روحیه تیم
اپل با به تعویق انداختن برنامههای هوش مصنوعی سیری، نه تنها باعث افت ارزش سهام شرکت شد بلکه روحیه تیم سیری را نیز تضعیف کرد. روبی واکر، مدیر ارشد بخش سیری، در جلسهای تیمی به کارکنان اذعان کرد که شرایط مطلوب نیست و تبلیغات قبلی اپل درباره ویژگیهای جدید، انتظارات را برآورده نکرده است.
۱۴۰۳/۱۲/۲۵ ۲۱:۲۱:۲۱ -
تحولات بزرگ OpenAI در سال 2024: از رشد چشمگیر ChatGPT تا چالشهای حقوقی
شرکت OpenAI در سال 2024 با رشد چشمگیر ChatGPT به 300 میلیون کاربر هفتگی و معرفی مدل های جدید مانند GPT-4o همراه با قابلیتهای چندرسانهای، به یکی از پیشروترین شرکتهای هوش مصنوعی تبدیل شد. این شرکت همزمان با توسعه فناوری، با چالشهای حقوقی متعددی از جمله شکایتهای کپی رایت از سوی رسانهها و نشریات مواجه بود.
۱۴۰۳/۱۲/۲۵ ۰۲:۳۶:۴۶ -
رونمایی از مدل هوش مصنوعی صوتی با قابلیت تولید صدای انسان
شرکت Sesame مدل پایه صوتی CSM-1B با یک میلیارد پارامتر را منتشر کرد که زیرساخت دستیار صوتی Maya است. این مدل با مجوز Apache 2.0 قابل استفاده تجاری بوده و توانایی تولید کدهای صوتی از متن و ورودی صدا را دارد. مدل قادر به تولید صداهای مختلف است اما محدودیتهایی در زبانهای غیرانگلیسی دارد.
۱۴۰۳/۱۲/۲۴ ۰۲:۵۹:۳۸ -
گوگل از قابلیت Auracast در گوشیهای اندروید رونمایی کرد
گوگل فناوری جدید Bluetooth به نام Auracast را معرفی کرد که به افراد دارای مشکلات شنوایی کمک میکند تا در محیطهای پرسر و صدا مانند ایستگاه راهآهن یا کنسرت، پخش صوتی را مستقیماً از طریق سمعک یا هدفون دریافت کنند. این قابلیت ابتدا برای گوشیهای سامسونگ Galaxy و Google Pixel با تنظیمات شخصیسازی صدا در دسترس خواهد بود.
۱۴۰۳/۱۲/۲۴ ۰۲:۴۹:۲۸ -
قابلیت ترجمه زنده گفتگو در ایرپادهای اپل
اپل در حال برنامهریزی برای افزودن قابلیت ترجمه زنده مکالمات در ایرپادهای خود است. این ویژگی جدید همزمان با بهروزرسانی نرمافزاری iOS 19 در سال جاری عرضه خواهد شد. این قابلیت پیشتر در محصولات رقیب مانند Pixel Buds گوگل وجود داشته است.
۱۴۰۳/۱۲/۲۴ ۰۰:۳۶:۰۶ -
اسپاتیفای برنامه انتشار داستانهای کوتاه صوتی را راهاندازی کرد
اسپاتیفای برنامه جدیدی برای انتشار کتابهای صوتی کوتاه راهاندازی کرده که به نویسندگان اجازه میدهد داستانهای کوتاه خود را برای تبدیل به کتاب صوتی ارائه دهند. این شرکت که در زمینه پخش موسیقی و پادکست فعالیت دارد، داستانهای ژانرهای رمانس، معما، تریلر و علمی-تخیلی را میپذیرد و به نویسندگان پیشپرداخت و حق امتیاز میدهد.
۱۴۰۳/۱۲/۲۳ ۱۹:۱۱:۲۳ -
گوگل دیپ مایند مدلهای هوش مصنوعی Gemini Robotics را معرفی کرد
گوگل دیپ مایند، آزمایشگاه تحقیقاتی هوش مصنوعی، مدلهای جدید Gemini Robotics را رونمایی کرد که به رباتها امکان تعامل با اشیا و محیطهای مختلف را میدهد. این مدلها قادرند با دستورات صوتی، وظایفی مانند تا کردن کاغذ و گذاشتن عینک در جعبه را انجام دهند و در محیطهای آموزش ندیده نیز عملکرد خوبی دارند.
۱۴۰۳/۱۲/۲۳ ۰۰:۲۳:۲۴ -
پخش رایگان پادکست در وب پلیر Pocket Casts برای عموم
Pocket Casts با راهاندازی پخش رایگان پادکست در وبسایت خود، رویکردی باز و دموکراتیک در برابر پلتفرمهای بسته پادکست اتخاذ کرده است. کاربران میتوانند بدون نیاز به اشتراک یا ایجاد حساب کاربری، به پخش آزادانه پادکستها بپردازند و برای امکانات بیشتر میتوانند حساب رایگان ایجاد کنند.
https://pocketcasts.com/۱۴۰۳/۱۲/۲۱ ۲۲:۵۰:۲۶ -
نینتندو سوئیچ 2 با سیستم چت صوتی یکپارچه
نینتندو در پی بهبود سیستم گفتگوی صوتی در نسل بعدی کنسول خود است. سوئیچ 2 احتمالاً سیستم چت صوتی مستقیم در سطح سیستم عامل خواهد داشت که به کاربران اجازه میدهد بدون نیاز به اپلیکیشن تلفن همراه با یکدیگر گفتگو کنند.
۱۴۰۳/۱۲/۲۱ ۲۲:۳۹:۴۴ -
هشدار درباره ابزارهای جعل صدا؛ نبود محدودیتهای امنیتی در اکثر نرمافزارهای شبیهسازی صدا
گزارش جدید Consumer Reports نشان میدهد اکثر ابزارهای شبیهسازی صدا فاقد محافظتهای معنادار برای جلوگیری از سوء استفاده هستند. از شش شرکت بررسی شده، تنها Descript و Resemble AI اقداماتی برای مقابله با سوء استفاده انجام دادهاند و سایر شرکتها صرفاً تأیید حقوقی کاربر را کافی میدانند. کارشناسان هشدار میدهند این ابزارها میتوانند خطر کلاهبرداریهای صوتی را افزایش دهند.
۱۴۰۳/۱۲/۲۰ ۱۸:۴۹:۰۲ -
تأخیر در بهبود هوش مصنوعی دستیار صوتی سیری اپل تا سال ۲۰۲۶
اپل اعلام کرد که بهبودهای هوش مصنوعی برای دستیار صوتی سیری که شامل قابلیتهای شخصیسازی و انجام اقدامات در اپلیکیشنها میشود، تا سال ۲۰۲۶ به تعویق افتاده است. این شرکت پیشتر قصد داشت این ویژگیها را در سال ۲۰۲۵ ارائه دهد و در حال ساخت زیرساخت رایانش ابری با تراشههای اختصاصی برای حفظ حریم خصوصی کاربران است.
۱۴۰۳/۱۲/۱۷ ۲۱:۵۴:۰۲ -
متا در آستانه معرفی مدل هوش مصنوعی Llama 4 با قابلیتهای صوتی پیشرفته
شرکت متا در حال آمادهسازی مدل Llama 4 است که با تمرکز بر قابلیتهای صوتی پیشرفته طراحی شده و کاربران میتوانند در حین گفتگو با مدل، گفتار مدل را قطع کنند. (یعنی وقتی مدل در حال صحبت است با حرف زدن صحبتش قطع می شود٫ مشابه نسخه صوتی chatgpt و live جمینی گوگل) . این مدل به عنوان یک مدل "همهکاره" قادر به تفسیر و تولید متن، گفتار و سایر انواع دادهها خواهد بود. رقابت با مدلهای هوش مصنوعی چینی DeepSeek، متا را به توسعه سریعتر Llama واداشته است.
۱۴۰۳/۱۲/۱۷ ۱۸:۵۶:۲۰ -
رشد چشمگیر ChatGPT در سال 2024
گزارش شرکت سرمایهگذاری Andreessen Horowitz نشان میدهد که هوش مصنوعی ChatGPT در نیمه دوم سال 2024 رشد قابل توجهی داشته است. این پلتفرم هوش مصنوعی که توسط OpenAI توسعه یافته، از 200 میلیون کاربر هفتگی در اوت 2024 به 400 میلیون کاربر در فوریه 2025 رسیده است. رشد اخیر با انتشار مدلهای جدید مانند GPT-4o و قابلیتهای چندوجهی همراه بوده است.
۱۴۰۳/۱۲/۱۷ ۰۱:۰۶:۵۴ -
قابلیت جدید ChatGPT: ویرایش مستقیم کد در محیطهای توسعه مک
ChatGPT نسخه macOS اکنون قادر به ویرایش مستقیم کد در محیطهای توسعه مانند Xcode و VS Code است. این قابلیت جدید برای کاربران Plus، Pro و Team در دسترس بوده و به زودی برای سایر کاربران نیز عرضه خواهد شد. این ویژگی رقابت با سایر ابزارهای کدنویسی هوش مصنوعی را افزایش میدهد.
۱۴۰۳/۱۲/۱۶ ۲۲:۵۱:۰۹ -
تأخیر در عرضه موتور صدای OpenAI به دلیل نگرانیهای امنیتی
شرکت OpenAI، سرویس موتور صدای خود که قادر به شبیهسازی صدای افراد با تنها ۱۵ ثانیه گفتار است، را همچنان در مرحله محدود نگه داشته است. این شرکت با هدف بررسی کاربردهای مسئولانه و جلوگیری از سوء استفادههای احتمالی، دسترسی به این فناوری را تنها برای شرکای محدود فراهم کرده و در حال آزمایش و ارزیابی جوانب مختلف آن است.
۱۴۰۳/۱۲/۱۶ ۱۸:۰۰:۰۶ -
پروژه GibberLink: گفتگوی هوش مصنوعی با زبان رمزی
پروژه GibberLink،طرحیست که توسط دو مهندس متا، امکان گفتگوی عاملان هوش مصنوعی با یکدیگر را از طریق یک پروتکل صوتی رمزی فراهم میکند. این پروژه با استفاده از کتابخانه GGWave، ارتباط بین عاملان هوش مصنوعی را سریعتر و کارآمدتر میسازد و در شبکههای اجتماعی با استقبال گستردهای مواجه شده است.
۱۴۰۳/۱۲/۱۵ ۲۰:۳۴:۱۵ -
طرح دعوای حق تألیف علیه OpenAI با احضار محقق ارشد
الکس رادفورد، محقق ارشد OpenAI که در توسعه فناوریهای هوش مصنوعی این شرکت نقش کلیدی داشته، در پرونده شکایت حق تألیف علیه این استارتاپ هوش مصنوعی احضار شده است. نویسندگانی مانند پل ترمبلی و سارا سیلورمن مدعی هستند OpenAI بدون اجازه از آثارشان برای آموزش مدلهای هوش مصنوعی استفاده کرده است.
۱۴۰۳/۱۲/۱۵ ۰۹:۵۱:۵۰ -
پادکستسازی با هوش مصنوعی؛ Podcastle مدل جدید متن به گفتار را معرفی کرد
podcastle یک پلتفرم پادکست، مدل هوش مصنوعی Asyncflow v1.0 را برای تبدیل متن به گفتار معرفی کرد. این استارتاپ بیش از ۴۵۰ صدای مصنوعی و قابلیت ادغام API برای توسعهدهندگان را ارائه می دهد. هدف اصلی این مدل، کاهش هزینههای تولید و افزایش کیفیت تبدیل متن به صدا است.۱۴۰۳/۱۲/۱۵ ۰۱:۲۰:۵۱ -
تأخیر در هوش مصنوعی Siri اپل
اپل در راه اندازی هوش مصنوعی Siri با تأخیر جدی مواجه شده است. بر اساس گزارشها، Siri هوشمند احتمالاً تا بهار ۲۰۲۶ و با نسخه iOS 19.4 عرضه خواهد شد. این تأخیر میتواند فرصتی برای بهبود قابلیتهای هوش مصنوعی و ارائه تجربه کاربری بهتر باشد. اپل در حال تلاش برای ادغام معماری قدیمی سیری با نرمافزارهای مدرن هوش مصنوعی است.
۱۴۰۳/۱۲/۱۴ ۰۰:۲۵:۵۰ -
همکاری Stability AI و Arm برای تولید صدای هوش مصنوعی در دستگاههای موبایل
استارتاپ Stability AI با همکاری شرکت Arm، مدل هوش مصنوعی Stable Audio Open را برای تولید صدا و افکت صوتی در دستگاههای موبایل بهینه کرده است. این مدل قادر است صداهایی مانند امواج دریا را با توصیف متنی تولید کند و با استفاده از محتوای رایگان حق تألیف آموزش دیده است.
۱۴۰۳/۱۲/۱۳ ۲۳:۵۵:۰۶ -
محدودیت سختافزاری OpenAI در راهاندازی مدل جدید GPT-4.5
مدیرعامل OpenAI اعلام کرد که شرکت به دلیل کمبود پردازندههای گرافیکی، ناچار به راهاندازی تدریجی مدل جدید GPT-4.5 شده است. این مدل که بسیار بزرگ و گران است، ابتدا برای مشترکان ChatGPT Pro و سپس ChatGPT Plus در دسترس قرار خواهد گرفت. هزینه استفاده از این مدل بسیار بالاست و 30 برابر هزینه مدل قبلی GPT-4o است.
۱۴۰۳/۱۲/۱۰ ۰۰:۳۲:۵۳ -
رونمایی ElevenLabs از مدل هوش مصنوعی Scribe برای تبدیل گفتار به متن
استارتاپ ElevenLabs که در زمینه تولید صدا با هوش مصنوعی فعال است، اولین مدل مستقل تبدیل گفتار به متن خود به نام Scribe را معرفی کرد. این مدل از بیش از 99 زبان پشتیبانی میکند و در برخی زبانها دارای دقت بالای 97 درصدی است. قیمت این سرویس ساعتی 0.40 دلار بوده و قابلیتهایی مانند تشخیص گوینده و زمانبندی کلمات را دارد.
۱۴۰۳/۱۲/۸ ۲۲:۲۷:۵۹



