-
Solutions
-
Speech
Une intelligence vocale qui réussit le test humain.
Synthèse vocale et transcription de pointe pour des interactions naturelles, expressives et nuancées.
Grâce à des modèles vocaux ouverts de pointe.
Voxtral TTS.
Génération et clonage de voix réalistes et riches en émotions.
Voxtral Mini Transcribe 2.
Transcription par lots avec la diarisation des locuteurs et la prise en compte des biais contextuels.
Voxtral Realtime.
Transcription en direct avec une latence inférieure à 200 ms.
Pourquoi utiliser Mistral Speech ?
Découvrir Mistral Speech.
API.
Accès programmatique aux modèles audio de Mistral pour des intégrations personnalisées.
Playground.
Testez la synthèse, le clonage et la transcription dans Mistral Studio.
Entreprise.
Déploiements sur mesure, solutions, entraînement des modèles et assistance dédiée.
Boucler la boucle de l'intelligence audio.
Créer et personnaliser les voix.
Agents vocaux.
Des conversations vocales en temps réel qui écoutent, raisonnent et répondent en adoptant le style, le ton et les connaissances spécifiques de votre marque.
Clonage de la voix.
Répliquez n'importe quelle voix d'un échantillon en seulement 3 secondes, en capturant le ton, le rythme et la personnalité.
Synthèse vocale.
Une élocution riche en émotions et un clonage vocal qui reflète la personnalité du locuteur. S'adapte à n'importe quelle voix à partir d'un petit échantillon, ou utilise des voix prédéfinies.
Capturer chaque mot.
Transcription en temps réel.
Une architecture de streaming qui transcrit les données audio au fur et à mesure de leur arrivée, et non par blocs, avec une latence configurable jusqu'à moins de 200 ms.
Transcription par lots.
Traitez de longues heures de réunions, des enregistrements d'appels et des archives de conformité, avec des sorties structurées et l'identification des locuteurs.
Adaptation interlinguistique.
Générez un discours dans une langue à l'aide d'une voix provenant d'une autre langue, tout en conservant l'accent et l'identité.
Prototype, test, réglage, adaptation.
Audio playground.
Testez les conversations, la synthèse vocale et la transcription dans Mistral Studio avec des comédiens, l'émulation vocale, la diarisation et des commandes par entrée.
Diarisation des locuteurs.
Elle identifie qui a dit quoi et quand, grâce à des étiquettes de locuteur et à des horodatages de début et de fin pour les réunions, les entretiens et les appels à plusieurs intervenants.
Biais contextuels.
Guidez le modèle avec jusqu'à 100 termes personnalisés : noms, vocabulaire technique, jargon interne.
Comment les équipes utilisent Mistral Speech aujourd'hui.
Ressources.
Documentation.
Les actualités.
Communauté.
Foire aux questions.
Essayez la synthèse vocale et la transcription dans l'Audio Playground de Mistral Studio, intégrez ces fonctionnalités via l'API ou téléchargez les open-weights pour les auto-héberger.
Oui, deux. Voxtral Mini Transcribe 2 pour la transcription par lots avec la diarisation des locuteurs et la prise en compte des biais contextuels et Voxtral Realtime pour la transcription en direct avec une latence inférieure à 200 ms.
Oui, vous pouvez fournir un échantillon de voix de seulement 3 secondes et Voxtral TTS, notre modèle de synthèse vocale, s'adaptera pour capturer le ton, le rythme et la personnalité du locuteur. Vous pouvez également utiliser des voix prédéfinies ou créer votre propre bibliothèque vocale.
La transcription prend en charge 13 langues, dont l'anglais, le français, l'allemand, l'espagnol, le chinois, l'hindi, l'arabe, le portugais, le russe, le japonais, le coréen, l'italien et le néerlandais.
La synthèse vocale prend en charge 9 langues et propose des expressions idiomatiques en anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe.
Voici un exemple de combinaison de modèles Voxtral pour former un pipeline de parole à parole :
Voxtral Realtime transcrit la parole entrante, un autre modèle de langage Mistral analyse la transcription et détermine une réponse, puis Voxtral TTS génère la sortie vocale.
Chaque composant peut être personnalisé et déployé indépendamment.
L'adaptation vocale interlinguistique signifie que le pipeline peut également gérer la traduction simultanée tout en préservant l'accent et l'identité du locuteur.
Oui, vous pouvez auto-héberger Mistral Speech ou le déployer sur Mistral Compute.




