OpenAI رونمایی از مدلهای جدید هوش مصنوعی گفتار و رونویسی
OpenAI در راستای توسعه فناوریهای هوش مصنوعی، مدلهای جدیدی از تبدیل متن به گفتار و رونویسی صوتی را معرفی کرده است که قابلیتهای چشمگیری دارند.
مدل جدید تبدیل متن به گفتار با نام "gpt-4o-mini-tts" امکان تنظیم دقیق لحن صدا را فراهم میکند، به طوری که توسعهدهندگان میتوانند دستوراتی مانند "مانند یک دانشمند دیوانه صحبت کن" یا "با صدایی آرام مانند یک مربی مراقبه صحبت کن" را اجرا کنند.
مدلهای رونویسی جدید با نامهای "gpt-4o-transcribe" و "gpt-4o-mini-transcribe" جایگزین مدل قبلی Whisper شدهاند و دقت بالاتری در ضبط گفتارهای با لهجههای مختلف دارند.
با این حال، دقت این مدلها در زبانهای مختلف متفاوت است و برای برخی زبانهای هندی نرخ خطای حدود 30 درصد دارد.
OpenAI برخلاف رویه قبلی، این مدلهای جدید را به صورت متنباز منتشر نخواهد کرد و آنها را تنها از طریق API در دسترس قرار خواهد داد. /



