فناوری تبدیل متن به گفتار - اخبار فناوری - EcoFori

استارتاپ Phonic؛ راهکار جدید برای بهبود کیفیت صدای مصنوعی هوش مصنوعی

شرکت Phonic، که توسط دو فارغ‌التحصیل MIT تأسیس شده، در حال توسعه‌ی فناوری پیشرفته‌ای برای بهبود کیفیت و اطمینان‌پذیری صدای مصنوعی است. برخلاف سایر شرکت‌ها که مدل‌های مختلف را به هم متصل می‌کنند، Phonic مدل‌های خود را از صفر و به‌ صورت کامل و یکپارچه آموزش می‌دهد. این روش باعث کاهش تأخیر، افزایش دقت و کاهش هزینه‌های اجرا می‌شود.
مدل‌های Phonic می‌توانند حتی در شرایطی که صداها نامفهوم، دارای لهجه‌های مختلف یا نویزدار هستند، عملکرد بهتری داشته باشند.

۱۴۰۴/۱/۱۶ ۰۱:۵۹:۰۰
OpenAI رونمایی از مدل‌های جدید هوش مصنوعی گفتار و رونویسی

شرکت OpenAI مدل‌های جدید “gpt-4o-mini-tts” و “gpt-4o-transcribe” را معرفی کرد که دقت و کیفیت بالاتری دارند. مدل TTS صدایی طبیعی‌تر و قابل تنظیم ارائه می‌دهد، درحالی‌که مدل STT جایگزین Whisper شده و دقت بیشتری در تشخیص گفتار دارد. برخلاف Whisper، این مدل‌ها متن‌باز نخواهند بود.

۱۴۰۴/۱/۲ ۱۲:۲۲:۴۸
پادکست‌سازی با هوش مصنوعی؛ Podcastle مدل جدید متن به گفتار را معرفی کرد

‏podcastle یک پلتفرم پادکست، مدل هوش مصنوعی Asyncflow v1.0 را برای تبدیل متن به گفتار معرفی کرد. این استارتاپ بیش از ۴۵۰ صدای مصنوعی و قابلیت ادغام API برای توسعه‌دهندگان را ارائه می دهد. هدف اصلی این مدل، کاهش هزینه‌های تولید و افزایش کیفیت تبدیل متن به صدا است.

۱۴۰۳/۱۲/۱۵ ۰۱:۲۰:۵۱
رونمایی ElevenLabs از مدل هوش مصنوعی Scribe برای تبدیل گفتار به متن

استارتاپ ElevenLabs که در زمینه تولید صدا با هوش مصنوعی فعال است، اولین مدل مستقل تبدیل گفتار به متن خود به نام Scribe را معرفی کرد. این مدل از بیش از 99 زبان پشتیبانی می‌کند و در برخی زبان‌ها دارای دقت بالای 97 درصدی است. قیمت این سرویس ساعتی 0.40 دلار بوده و قابلیت‌هایی مانند تشخیص گوینده و زمان‌بندی کلمات را دارد.

۱۴۰۳/۱۲/۸ ۲۲:۲۷:۵۹
هوش مصنوعی نظامی در کانون توجه نمایشگاه هوایی سنگاپور

چند شرکت آمریکایی سازنده پهپاد این هفته در نمایشگاه هوایی سنگاپور حاضر شدند تا فروش خود را فراتر از پنتاگون به کشورهای آسیایی گسترش دهند؛ کشورهایی که با توجه به تقویت نظامی چین، به‌دنبال گزینه‌های تازه دفاعی هستند. 🛩️
موفقیت پهپادها در جنگ اوکراین موج سرمایه‌گذاری در پهپاد و هوش مصنوعی نظامی را بالا برده و حالا این فناوری‌ها از حاشیه به مرکز نمایشگاه‌های هوایی آمده‌اند. 🤖
Shield AI اعلام کرد نرم‌افزار خودران «Hivemind» حتی با اختلال GPS و ارتباطات هم می‌تواند مأموریت‌های شناسایی انجام دهند. Anduril نیز با تمرکز بر بازار تایوان، ژاپن و کره‌جنوبی از فروش پهپاد پرسه‌زن خود به تایوان خبر داده و Red Cat هم اعلام کرد یک کشور نامشخص در آسیا-اقیانوسیه برای پهپاد «Black Widow» سفارش ثبت کرده است. 🌏

۱۴۰۴/۱۱/۱۸ ۰۵:۰۸:۲۶
اپلیکیشن های چت، کدنویسی، پشتیبانی مشتری؛ مثلث طلایی سرمایه‌گذاری در هوش مصنوعی

در رویداد TechCrunch Disrupt، چند سرمایه‌گذار مطرح گفتند تمرکز اصلی سرمایه‌گذاری جسورانه فعلاً روی هوش مصنوعی است و بازار با سرعتی بی‌سابقه شلوغ‌تر می‌شود. 🤖
نینا آچاژیان از Index گفت مهم‌ترین معیارشان تاب‌آوری بنیان‌گذار است، چون تغییرات سریع می‌تواند تصویر اشتباهی از موفقیت بسازد. او هشدار داد تقاضای شرکت‌های بزرگ برای تست هوش مصنوعی گاهی تطابق محصول با بازارِ کاذب ایجاد می‌کند؛ یعنی درآمد می‌آید اما مشتری بازگشت سرمایه واقعی ندارد، پس توان تغییر مسیر حیاتی است. 📈
پیتر دِنگ از Felicis افزود استارتاپ باید مزیت دفاعی، به‌خصوص در داده، بسازد چون مشتریان چند رقیب را هم‌زمان امتحان می‌کنند. جری چِن از Greylock هم گفت فعلاً سه حوزه بیشتر جواب داده: اپ‌های چت، ابزارهای کدنویسی و هوش مصنوعی در خدمات مشتری؛ و موج بعدی می‌تواند بازارگاه‌های AI، رباتیک و تحول در SaaS باشد. 🧠

۱۴۰۴/۱۰/۱ ۰۵:۰۰:۴۴
افزایش تمایل به ویرایش جنین در سیلیکون ولی!

در سیلیکون‌ولی اشتیاق تازه‌ای برای ویرایش ژنتیکی جنین شکل گرفته؛ روشی بحث‌برانگیز که با فناوری Crispr تلاش می‌کند ژن‌های ناخواسته را از جنین، اسپرم یا تخمک حذف کند. اما این کار در آمریکا کاملاً غیرقانونی است و شرکت‌ها اجازه انجام آزمایش‌ یا تولید نوزاد ویرایش‌شده را ندارند. ⚖️
با این حال دو استارتاپ Preventive در کالیفرنیا (حمایت‌شده توسط برایان آرمسترانگ و سم آلتمن) و Manhattan Genomics در نیویورک به‌دنبال انتقال فعالیت‌های خود به کشورهایی هستند که قوانین سخت‌گیرانه ندارند؛ مثل امارات یا هندوراس. در چین و بریتانیا فقط ویرایش برای تحقیق مجاز است و تولید نوزاد ممنوع است. 🧬
هدف این شرکت‌ها حذف بیماری‌های ژنتیکی است، اما کارشناسان هشدار می‌دهند این فناوری هنوز ریسک بالایی دارد و می‌تواند باعث جهش‌های خطرناک شود. همچنین احتمال می‌رود دسترسی به آن فقط برای ثروتمندان ممکن شود و مسیر به‌سمت طراحی نوزادان و ایده‌های شبه‌یوژنیک منحرف گردد؛ موضوعی که به‌گفته متخصصان «در سیلیکون‌ولی ریشه عمیق دارد». ⚠️

۱۴۰۴/۸/۲۹ ۰۳:۱۰:۱۵
پروژه غول‌پیکر OpenAI سه برابر Stargate است؛ هدف: آینده‌ای بدون محدودیت!

پس از انتشار ChatGPT در سال ۲۰۲۲، مدیرعامل OpenAI، سم آلتمن اعلام کرد این فناوری آغازگر یک انقلاب بزرگ در جهان تکنولوژی است و می‌تواند شرکتش را به مهم‌ترین شرکت تاریخ سیلیکون‌ولی تبدیل کند. 💬🤖
او پس از توافق جدید با مایکروسافت برای جذب سرمایه بدون محدودیت، از برنامه‌ای عظیم برای ساخت زیرساخت‌های هوش مصنوعی به ارزش ۱.۴ تریلیون دلار خبر داد که هدف آن ایجاد ۳۰ گیگاوات ظرفیت محاسباتی است. ⚙️
آلتمن گفت می‌خواهد هر هفته یک گیگاوات توان جدید به سیستم اضافه کند. این طرح سه برابر بزرگ‌تر از پروژه Stargate است که با همکاری شرکت‌هایی مانند اوراکل، انویدیا و سافت‌بانک و با حمایت دولت آمریکا اجرا می‌شود. 🇺🇸💼
او وعده داده اجرای این پروژه صدها هزار شغل ایجاد کند و درآمد سالانه OpenAI را از حدود ۲۰ میلیارد دلار به صدها میلیارد افزایش دهد. 💰

۱۴۰۴/۸/۹ ۱۰:۳۹:۴۶
ایلان ماسک در آستانه تبدیل شدن به نخستین تریلیونر جهان!

ایلان ماسک، مدیرعامل تسلا، ممکن است پس از رأی سهام‌داران در ۶ نوامبر به نخستین تریلیونر جهان تبدیل شود. 💰
این رأی درباره بسته پرداختی یک تریلیون دلاری است که در صورت تصویب، سهم رأی ماسک از ۱۳.۵٪ به حدود ۲۵٪ افزایش می‌یابد. 📊
ماسک گفت هدفش پول نیست، بلکه نفوذ بیشتر برای پیشبرد پروژه ربات‌های Optimus است. 🤖 او منتقدان این طرح را «تروریست‌های شرکتی» خواند و وعده داد نسخه جدید ربات‌ها اوایل سال آینده معرفی شود؛ ربات‌هایی که به گفته او پنج برابر کارآمدتر از انسان‌اند. ⚙️
با کاهش سود تسلا به‌دلیل تعرفه‌های دولت ترامپ و حذف مشوق مالیاتی خودروهای برقی، شرکت تمرکز خود را بر هوش مصنوعی و رباتیک گذاشته است. 🚗💡
ماسک گفت تا پایان سال تاکسی‌های خودران تسلا بدون راننده ایمنی در آستین فعال می‌شوند و سپس در چند شهر دیگر آمریکا گسترش می‌یابند. 🚘 او تأکید کرد سیستم خودران تسلا از انسان ایمن‌تر است و حتی بهتر از انسان‌ها جای پارک را تشخیص می‌دهد. 🧠

۱۴۰۴/۸/۶ ۰۷:۳۰:۳۴
متا با Hyperscape اتاق شما را به دنیای دیجیتال تبدیل می‌کند!

متا در رویداد Meta Connect از قابلیت جدید Hyperscape پرده برداشت. کاربران هدست‌های Quest 3 و 3S می‌توانند اتاق خود را اسکن کرده و آن را به دنیایی دیجیتال و بسیار شبیه واقعیت تبدیل کنند. این فرایند چند دقیقه زمان می‌برد اما پردازش نهایی چند ساعت طول می‌کشد. امکان دعوت دوستان به این فضاها نیز به‌زودی فعال می‌شود. 🌐🎮
متا همچنین بازی‌های تازه‌ای مانند Marvel’s Deadpool VR و نسخه جدید Star Wars را معرفی کرد. 🎮🕹️
علاوه بر این، همکاری با Universal و Blumhouse تجربه تماشای فیلم‌های ترسناک مثل «M3GAN» را با جلوه‌های ویژه فراهم می‌کند.🎬👓

۱۴۰۴/۶/۲۸ ۱۹:۵۴:۱۵
پاپ علیه ایلان ماسک: تبدیل شدن به نخستین تریلیونر جهان نشانه نابرابری است

هیئت‌مدیره تسلا بسته پاداشی برای ایلان ماسک تصویب کرده که اگر او طی ۱۰ سال آینده به اهداف تجاری برسد، می‌تواند اولین تریلیونر جهان شود. این موضوع با واکنش پاپ لیو همراه شد؛ او گفت ۶۰ سال پیش مدیران فقط ۴ تا ۶ برابر کارگران درآمد داشتند اما امروز این اختلاف به ۶۰۰ برابر رسیده است. پاپ با اشاره به خبر ثروتمند شدن احتمالی ماسک گفت: «این چه معنایی دارد؟ اگر تنها چیزی که ارزش دارد پول باشد، ما با مشکل بزرگی روبه‌رو هستیم».💰
در همین حال، ماسک با مواضع سیاسی خود نیز جنجال‌برانگیز شده است. او از یک تجمع ضد مهاجرت در لندن حمایت کرد و در پیامی ویدئویی به معترضان گفت یا «بجنگید» یا «بمیرید»؛ سخنانی که حتی سیاستمداران محافظه‌کار بریتانیا هم آن را خطرناک و غیرمسئولانه توصیف کردند. ✅🌍

۱۴۰۴/۶/۲۶ ۱۰:۵۰:۳۲
ترامپ و پسرانش در مسیر تبدیل شدن به غول‌های رمزارزی آمریکا

توکن جدید $WLFI که به خانواده ترامپ مربوط می‌شود وارد بازار شد و بار دیگر توجه‌ها را به حضور پررنگ آن‌ها در دنیای رمزارز جلب کرد. بعضی‌ها این موضوع را تعارض منافع می‌دانند اما کاخ سفید هرگونه تخلف را رد کرده است. 🤝💰
خانواده ترامپ از طریق شرکت Trump Media و همکاری با Crypto.com سرمایه‌گذاری‌های بزرگی انجام داده‌اند. آن‌ها ۲۲.۵ میلیارد توکن $WLFI و بخشی از پلتفرم World Liberty را در اختیار دارند و تاکنون حدود ۵۰۰ میلیون دلار سود به دست آورده‌اند. 📊⚡
این خانواده همچنین میم‌کوین‌های $TRUMP و $MELANIA، مجموعه‌های NFT و شرکت استخراج بیت‌کوین American Bitcoin را راه‌اندازی کرده‌اند و حالا به دنبال ایجاد صندوق‌های سرمایه‌گذاری رمزارزی (ETF) هستند. ✅🚀

۱۴۰۴/۶/۱۴ ۰۲:۱۴:۱۵
Nvidia در آستانه تبدیل شدن به باارزش‌ترین شرکت تاریخ

انویدیا با رسیدن به ارزش بازار ۳.۹۲ تریلیون دلار در آستانه تبدیل‌شدن به باارزش‌ترین شرکت تاریخ قرار گرفته و از رکورد قبلی اپل عبور کرده است. 📈
افزایش تقاضا برای تراشه‌های هوش مصنوعی از سوی غول‌هایی چون مایکروسافت و آمازون، موتور اصلی این رشد بوده است. 🧠
ارزش انویدیا اکنون از کل بورس بریتانیا و حتی بازارهای کانادا و مکزیک بیشتر است، در حالی‌که نسبت قیمت به درآمد آن همچنان نسبتاً پایین باقی مانده است. 💰
سهام شرکت پس از افت ناشی از تعرفه‌های ترامپ، بیش از ۶۸٪ رشد کرده و بازار روی توافق‌های تجاری آینده حساب باز کرده است. 📊

۱۴۰۴/۴/۱۵ ۲۱:۱۱:۱۳
کارائوکه خانگی با Sing-along اپل، آیفون را به میکروفن تبدیل کن

اپل در نسخه جدید tvOS 26 که در WWDC 2025 معرفی شد، قابلیت جدید و سرگرم‌کننده‌ای به نام “Sing-along” را ارائه کرده که آیفون را به میکروفن دستی برای کارائوکه در Apple TV تبدیل می‌کند. 🎤
کاربران می‌توانند با استفاده از این ویژگی، صدای خود را تقویت کرده و همراه با نمایش زنده ترانه‌ها و افکت‌های تصویری، آهنگ‌های محبوبشان را بخوانند.
ویژگی ترجمه هم‌زمان متن ترانه نیز در این حالت فعال است و امکان خواندن آهنگ‌هایی به زبان‌های دیگر را برای کاربران فراهم می‌کند. 🌍

۱۴۰۴/۳/۲۱ ۰۴:۰۷:۲۶
NotebookLM گوگل حالا تصویری شد؛ تبدیل یادداشت‌ها به ویدیو با هوش مصنوعی!

گوگل در I/O 2025 از قابلیت‌های جدیدی برای ابزار هوش مصنوعی NotebookLM رونمایی کرد. 🧠📒 این ابزار که برای یادداشت‌برداری و تحقیق طراحی شده، حالا می‌تواند محتواهای پیچیده مثل یادداشت‌ها، PDFها و تصاویر را به ویدیوهای قابل‌فهم تبدیل کند. 🎥📝
قابلیت «Video Overviews» کمک می‌کند موضوعات سخت را به‌صورت تصویری بهتر درک کنید، در ادامه نسخه صوتی هم ارتقا یافته و حالا می‌توان طول فایل‌های صوتی را به دلخواه تنظیم کرد. 🎧🗣️
همچنین اپلیکیشن NotebookLM برای اندروید و iOS منتشر شده و قابلیت‌هایی مثل پخش در پس‌زمینه و حالت آفلاین را دارد.📱

۱۴۰۴/۳/۱ ۰۳:۱۲:۳۱
Google Meet حالا با ترجمه زنده گفتار؛ زبان دیگر مانع نیست

🌍 گوگل در رویداد I/O 2025 اعلام کرد که قابلیت «ترجمه گفتار به‌صورت زنده» را به Google Meet اضافه کرده است 🗣️ این ویژگی با کمک مدل صوتی پیشرفته DeepMind، امکان گفت‌وگو با افراد به زبان‌های مختلف را در زمان واقعی فراهم می‌کند، آن هم با حفظ لحن، صدا و احساسات طرف مقابل 🎧💬
مثلاً نوه‌های انگلیسی‌زبان می‌توانند با مادربزرگ اسپانیایی‌زبانشان راحت صحبت کنند یا شرکت‌های بین‌المللی جلسات چندزبانه برگزار کنند، بدون نیاز به مترجم 🌐👵🏢
صدا با تأخیر بسیار کم ترجمه می‌شود و صدای اصلی شخص نیز به‌صورت کمرنگ در پس‌زمینه شنیده می‌شود 🎙️🔊

۱۴۰۴/۳/۱ ۰۱:۱۶:۵۵
گوگل با "Simplify" متن‌های پیچیده را به زبان ساده‌تر تبدیل می‌کند

گوگل از قابلیت تازه‌ای به نام Simplify در اپلیکیشن iOS خود رونمایی کرد ✨ این ابزار با بهره‌گیری از هوش مصنوعی Gemini و تحقیقات Google Research طراحی شده تا متن‌های فنی و دشوار را بدون حذف جزئیات مهم، به زبانی ساده و قابل‌فهم بازنویسی کند 🧠
کاربران تنها با انتخاب متن در مرورگر گوگل و لمس آیکون “Simplify”، می‌توانند نسخه‌ای ساده‌تر از همان محتوا را ببینند 📲 این قابلیت به کاربران کمک می‌کند بدون ترک صفحه وب، درک بهتری از اطلاعات پیدا کنند و مطالب را راحت‌تر حفظ کنند 📚
این اقدام گوگل، گامی هوشمندانه برای حفظ کاربران در محیط خدمات خود و رقابت با ابزارهایی چون ChatGPT به شمار می‌رود ♟️ قابلیت Simplify از این هفته برای کاربران iOS فعال می‌شود 🚀

۱۴۰۴/۲/۱۷ ۲۱:۴۸:۴۸
فناوری مغزی ایلان ماسک یک گام دیگر به واقعیت نزدیک شد

⚡🧠🗣️ شرکت نورالینک (Neuralink) به رهبری ایلان ماسک موفق شد تأییدیه ویژه FDA ( سازمان غذا و داروی آمریکا ) را برای دستگاهی نوآورانه دریافت کند که می‌تواند امکان ارتباط دوباره را برای افرادی با ناتوانی شدید گفتاری فراهم کند. این فناوری امید تازه‌ای برای مبتلایان به ALS، سکته مغزی ، آسیب نخاعی و دیگر بیماری‌های عصبی ایجاد کرده و حالا با این تأییدیه، مسیر توسعه و عرضه آن بسیار سریع‌تر خواهد شد. 🚀✅

۱۴۰۴/۲/۱۳ ۰۷:۴۷:۴۳
گوگل قابلیت صوتی‌سازی سند با هوش مصنوعی را به ۷۶ زبان جدید گسترش داد

گوگل قابلیت «Audio Overviews» در NotebookLM را که پادکست‌هایی هوش مصنوعی‌محور از اسناد کاربران تولید می‌کند، به ۷۶ زبان جدید گسترش داده است. کاربران اکنون می‌توانند زبان تولید پادکست‌ها را خودشان انتخاب کنند، که امکان تولید محتوای چندزبانه یا مطالب آموزشی شخصی‌سازی‌شده را فراهم می‌کند. این ابزار برای مثال به دانش‌آموزان کمک می‌کند که خلاصه محتوای منابع مختلف را به زبان دلخواه خود گوش دهند. زبان‌های جدید شامل فارسی، عربی، فرانسوی، چینی، ترکی، اسپانیایی، و بسیاری دیگر می‌شود.

۱۴۰۴/۲/۱۱ ۰۹:۴۵:۱۴
دانشجویان جوان، رقیبی برای هوش مصنوعی صوتی گوگل با نام Dia ساختند

دو دانشجوی کره‌ای بدون تجربه زیاد در هوش مصنوعی، مدلی به نام “Dia” ساخته‌اند که می‌تواند صدای مصنوعی مانند پادکست تولید کند؛ عملکرد آن مشابه ابزار NotebookLM گوگل است، اما کنترل بیشتری به کاربر می‌دهد. این مدل رایگان است و در پلتفرم‌های Hugging Face و GitHub قابل دسترسی است. کاربران می‌توانند لحن صدا، مکث‌ها، سرفه و خنده را در گفت‌وگوها تنظیم کنند و حتی صدای واقعی افراد را شبیه‌سازی کنند. هرچند این ابزار محافظت زیادی در برابر سوءاستفاده ندارد و مشخص نیست از چه داده‌هایی برای آموزش آن استفاده شده، اما سازندگان آن قصد دارند پلتفرمی با قابلیت‌های اجتماعی و چندزبانه بسازند.

۱۴۰۴/۲/۳ ۲۱:۰۸:۴۱
اشتباه ساده‌ای که به یک اصطلاح علمی جعلی تبدیل شد و حالا هوش مصنوعی دست از سرش برنمی‌دارد

یک واژه علمی ساختگی به نام «میکروسکوپ الکترونی گیاهی» به‌طور اشتباهی وارد مقالات علمی شده و حالا به لطف هوش مصنوعی، در حال گسترش در دنیای علم است. این اصطلاح در واقع نتیجه‌ی یک خطای دیجیتالی در اسکن یک مقاله قدیمی از دهه ۱۹۵۰ است که دو کلمه‌ی بی‌ربط از دو ستون مختلف به اشتباه با هم ترکیب شده‌اند.
این خطا وارد دیتابیس‌های عظیم آموزش مدل‌های هوش مصنوعی شده و از آنجا در پاسخ‌ها و حتی مقالات منتشرشده ظاهر می‌شود.
در بررسی‌ها مشخص شد این اصطلاح ساختگی در مدل‌های جدیدی مثل GPT-4 و Claude 3.5 هم وجود دارد و به‌سختی می‌توان آن را از داده‌های آموزشی پاک کرد. این ماجرا نشان می‌دهد که اشتباهات کوچک می‌توانند به «فسیل‌های دیجیتالی» تبدیل شوند و برای همیشه در حافظه‌ی اینترنت و هوش مصنوعی باقی بمانند.

۱۴۰۴/۱/۳۰ ۰۴:۰۳:۵۴
رباتاکسی‌های Waymo به ابزار جدید پلیس برای تحقیقات تبدیل شدند

پلیس لس‌آنجلس برای اولین بار از تصاویر ضبط شده توسط خودروهای خودران Waymo در تحقیقات جنایی استفاده کرده است. این اتفاق نشان می‌دهد که خودروهای بدون راننده به منبع جدیدی برای جمع‌آوری شواهد تصویری تبدیل شده‌اند. Waymo تأکید کرده که اطلاعات را تنها با حکم قانونی در اختیار پلیس قرار می‌دهد.

۱۴۰۴/۱/۲۹ ۱۷:۵۲:۵۰
اعتراض جمعی از کارکنان سابق OpenAI به تبدیل آن به شرکت سودمحور

۱۲ نفر از کارکنان سابق OpenAI با حمایت یک استاد حقوق دانشگاه هاروارد، از شکایت ایلان ماسک علیه این شرکت حمایت کرده‌اند. آن‌ها می‌گویند تبدیل OpenAI از یک سازمان غیرانتفاعی به شرکت سودمحور، برخلاف مأموریت اولیه آن برای توسعه ایمن و عمومی هوش مصنوعی است.
شرکت OpenAI می‌گوید ساختار جدیدش مانند شرکت‌های رقیب (مثل Anthropic) خواهد بود و همچنان بخش غیرانتفاعی حفظ می‌شود. هم‌زمان، گروه‌های حقوقی و کارگری نیز خواستار توقف این تغییر شده‌اند.

۱۴۰۴/۱/۲۴ ۰۴:۴۲:۰۵
تبدیل نوارهای مغناطیسی به سیستم دیجیتال؛ هزینه یا صرفه‌جویی؟

وزارت بهبود کارایی دولت آمریکا (Doge) اعلام کرده ۱۴ هزار نوار مغناطیسی حاوی داده‌های آرشیوی را به نسخه دیجیتال تبدیل کرده است؛ اقدامی که به گفته‌ی مسئولان، سالانه یک میلیون دلار صرفه‌جویی به همراه دارد.
اما برخی کارشناسان هشدار داده‌اند که این تصمیم ممکن است هزینه‌های پنهانی به‌دنبال داشته باشد. نوارهای مغناطیسی، با وجود قدمتشان، همچنان یکی از امن‌ترین و ارزان‌ترین روش‌های ذخیره‌سازی طولانی‌مدت هستند. آن‌ها در برابر حملات سایبری مقاوم‌اند و برخلاف فضای ابری، در حالت عادی انرژی مصرف نمی‌کنند.

۱۴۰۴/۱/۲۱ ۱۵:۰۹:۳۹
تغییر لهجه با هوش مصنوعی در تماس‌های صوتی توسط Krisp

استارتاپ Krisp با استفاده از هوش مصنوعی، قابلیت تغییر لهجه انگلیسی هندی به آمریکایی را در تماس‌های صوتی راه‌اندازی کرد. این فناوری با حفظ صدای اصلی گوینده، فقط واج‌ها را تغییر می‌دهد و مدعی است در آزمایشات، نرخ فروش را 26 درصد افزایش داده است.

۱۴۰۴/۱/۷ ۱۹:۴۸:۰۳
استارتاپ Stability AI یک مدل هوش مصنوعی جدید برای تبدیل تصاویر به ویدیوهای واقعی رونمایی کرد

استارتاپ Stability AI مدل هوش مصنوعی Stable Virtual Camera را معرفی کرد که قادر است تصاویر دوبعدی را به ویدیوهای با عمق و پرسپکتیو واقعی تبدیل کند. این مدل می‌تواند از یک یا چند تصویر، نماهای جدیدی با زوایای دوربین مختلف ایجاد کند و ویدیوهایی با مسیرهای متنوع دوربین تولید نماید. نسخه تحقیقاتی فعلی این مدل با محدودیت‌هایی در کیفیت تصاویر انسان و حیوانات همراه است.

۱۴۰۳/۱۲/۲۹ ۱۵:۰۵:۳۷
تنسنت با معرفی مدل‌های هوش مصنوعی جدید، قابلیت تبدیل متن و تصویر به محیط سه‌بعدی را ارائه داد

شرکت تنسنت (Tencent)، غول فناوری چینی، پنج مدل متن‌باز هوش مصنوعی را برای تولید تصاویر سه‌بعدی معرفی کرد. این مدل‌ها با فناوری Hunyuan3D-2.0 می‌توانند ظرف ۳۰ ثانیه تصاویر سه‌بعدی با کیفیت بالا تولید کنند. این اقدام در راستای رقابت شرکت‌های چینی با شرکت‌های آمریکایی در حوزه هوش مصنوعی تولیدی است.

۱۴۰۳/۱۲/۲۸ ۱۳:۵۹:۵۹
گوگل مدل جدید Gemini Embedding را برای توسعه‌دهندگان معرفی کرد

گوگل مدل جدید Gemini Embedding را به عنوان یک مدل آزمایشی برای تبدیل متن به نمایش‌های عددی معرفی کرد.
این نمایش‌های عددی که نامیده می‌شوند، را در بر می‌گیرند. از مدل‌های در کاربردهای مختلفی مانند استفاده می‌شود، زیرا این مدل‌ها علاوه بر بهبود سرعت پردازش، می‌توانند هزینه‌ها را کاهش دهند
این مدل که با هوش مصنوعی Gemini آموزش دیده، قابلیت پردازش بیش از ۱۰۰ زبان را دارد و در حوزه‌های مختلف مانند علوم، مالی و حقوقی کارایی بالایی دارد. گوگل این مدل را در مرحله آزمایشی عرضه کرده و در تلاش برای انتشار عمومی آن در ماه‌های آینده است.

۱۴۰۳/۱۲/۱۷ ۲۳:۴۹:۱۱
رونمایی Mistral از API جدید OCR برای پردازش اسناد پیچیده

شرکت Mistral یک API جدید OCR معرفی کرد که قادر به تبدیل اسناد پی‌دی‌اف به متن با قالب‌بندی مارک‌داون است. این API چندوجهی می‌تواند تصاویر و متون پیچیده را شناسایی کرده و در خروجی نهایی حفظ کند. Mistral مدعی است این سرویس از نمونه‌های مشابه گوگل، مایکروسافت و OpenAI بهتر عمل می‌کند و برای پردازش اسناد توسط مدل‌های زبانی بزرگ طراحی شده است.

۱۴۰۳/۱۲/۱۶ ۲۲:۲۹:۵۶
احضار هشت شرکت فناوری بزرگ آمریکایی توسط کمیته قضایی مجلس نمایندگان

کمیته قضایی مجلس نمایندگان آمریکا هشت شرکت فناوری بزرگ شامل گوگل، متا، اپل، ایکس، آمازون، مایکروسافت، رامبل و تیک‌تاک را احضار کرد. این شرکت‌ها باید جزئیات ارتباطات خود با سایر کشورها درباره قوانین مرتبط با محدودیت‌های گفتاری را ارائه دهند.

۱۴۰۳/۱۲/۹ ۱۸:۳۵:۳۴

نمایش بیشتر