• Solutions

  • Speech

Une intelligence vocale qui réussit le test humain.

Synthèse vocale et transcription de pointe pour des interactions naturelles, expressives et nuancées.

Voice agents

Bank Agent Bank Agent
Hi, how can I help you today?
I'd like to open a business account. What do you need from me?
Let me fetch your ID on file.
Model Reasonning
Can you please confirm your registered address?
27 Clerkenwell Road, London.

Text-to-speech

Car assistant
Car assistant
Traffic ahead on the A40 near Hillingdon. I've rerouted you via the M25. Estimated arrival is now 9.15am, which still gives you 10 minutes before your meeting.

Speech-to-text

Audio file Investment-transcript.mp3
S
Speaker 1
00:01-00:07
The DCF puts the target at 1.2 billion, but the comps are suggesting closer to 950.
00:08-00:11
We need to reconcile that before the pitch.
S
Speaker 2
00:12-00:13
Agreed.
00:14-00:18
The multiple is being dragged down by the peer group selection.
00:19-00:24
If we narrow it to pure play sass, the range tightens significantly.
S
Speaker 1
00:25-00:26
Fine.
00:27-00:32
Let's rerun the comps with the revised peer set and update the book by Thursday.
S
Speaker 2
00:33-00:36
I'll have the associate turn it around tomorrow.
00:37-00:41
Do we want to keep the base case at 8 times or push to 9?

Grâce à des modèles vocaux ouverts de pointe.

Voxtral TTS.

Génération et clonage de voix réalistes et riches en émotions.

Voxtral Mini Transcribe 2.

Transcription par lots avec la diarisation des locuteurs et la prise en compte des biais contextuels.

Voxtral Realtime.

Transcription en direct avec une latence inférieure à 200 ms.

Pourquoi utiliser Mistral Speech ?

Des agents qui parlent comme des humains.

Une synthèse et une reproduction vocales qui restituent la personnalité, le rythme et la nuance émotionnelle.

Tout entendre et comprendre.

Une transcription précise dans des conditions réelles et bruyantes, qui identifie avec exactitude les locuteurs et leurs propos.

Localisation multilingue et multi-accents.

Neuf langues pour la synthèse vocale, treize pour la transcription, avec adaptation interlinguistique et dialectale.

Optimisées par vos modèles dans votre infrastructure.

Open-weights, ajustement du domaine et déploiement sur site. Contrôle total de chaque composant du pipeline.

Découvrir Mistral Speech.

API.

Accès programmatique aux modèles audio de Mistral pour des intégrations personnalisées.

Playground.

Testez la synthèse, le clonage et la transcription dans Mistral Studio.

Entreprise.

Déploiements sur mesure, solutions, entraînement des modèles et assistance dédiée.

Boucler la boucle de l'intelligence audio.

Créer et personnaliser les voix.

Agents vocaux.

Des conversations vocales en temps réel qui écoutent, raisonnent et répondent en adoptant le style, le ton et les connaissances spécifiques de votre marque.

Clonage de la voix.

Répliquez n'importe quelle voix d'un échantillon en seulement 3 secondes, en capturant le ton, le rythme et la personnalité.

Synthèse vocale.

Une élocution riche en émotions et un clonage vocal qui reflète la personnalité du locuteur. S'adapte à n'importe quelle voix à partir d'un petit échantillon, ou utilise des voix prédéfinies.

Capturer chaque mot.

Transcription en temps réel.

Une architecture de streaming qui transcrit les données audio au fur et à mesure de leur arrivée, et non par blocs, avec une latence configurable jusqu'à moins de 200 ms.

Transcription par lots.

Traitez de longues heures de réunions, des enregistrements d'appels et des archives de conformité, avec des sorties structurées et l'identification des locuteurs.

Adaptation interlinguistique.

Générez un discours dans une langue à l'aide d'une voix provenant d'une autre langue, tout en conservant l'accent et l'identité.

Prototype, test, réglage, adaptation.

Audio playground.

Testez les conversations, la synthèse vocale et la transcription dans Mistral Studio avec des comédiens, l'émulation vocale, la diarisation et des commandes par entrée.

Diarisation des locuteurs.

Elle identifie qui a dit quoi et quand, grâce à des étiquettes de locuteur et à des horodatages de début et de fin pour les réunions, les entretiens et les appels à plusieurs intervenants.

Biais contextuels.

Guidez le modèle avec jusqu'à 100 termes personnalisés : noms, vocabulaire technique, jargon interne.

Comment les équipes utilisent Mistral Speech aujourd'hui.

Le service client.

Des agents vocaux acheminent et traitent les requêtes sur tous les canaux en utilisant un langage naturel et adapté à l'image de marque.

Les services financiers.

Une IA vocale conforme pour les conseils en gestion de patrimoine, les demandes de renseignements sur les polices d'assurance et l'intégration des clients.

Les activités industrielles et de production.

Des interfaces vocales destinées au contrôle qualité, aux retours concernant la production et aux opérations sur le terrain dans des environnements très bruyants.

Les services publics et l'administration.

Des assistants vocaux adaptés aux dialectes locaux pour les services aux citoyens, déployés sur une infrastructure souveraine.

La conformité et les risques.

Une surveillance des appels en temps réel avec l'identification des locuteurs, l'automatisation KYC/AML et l'enregistrement d'interactions pouvant faire l'objet d'un audit.

La chaîne d'approvisionnement et la logistique.

Un suivi des expéditions, une coordination douanière et une gestion des exceptions par commande vocale, dans toutes les langues.

Les systèmes automobiles et embarqués.

Des modèles légers intégrés aux appareils permettant de faire fonctionner des interfaces vocales sans dépendre du cloud.

La vente et le marketing.

Des informations sur les réunions avec l'identification des locuteurs, l'analyse du pipeline et le suivi automatisé.

Traduction en temps réel.

Adaptation vocale multilingue pour la traduction en direct, en préservant l'identité et l'accent du locuteur.

Ressources.

Foire aux questions.

Essayez la synthèse vocale et la transcription dans l'Audio Playground de Mistral Studio, intégrez ces fonctionnalités via l'API ou téléchargez les open-weights pour les auto-héberger.

Oui, deux. Voxtral Mini Transcribe 2 pour la transcription par lots avec la diarisation des locuteurs et la prise en compte des biais contextuels et Voxtral Realtime pour la transcription en direct avec une latence inférieure à 200 ms.

Oui, vous pouvez fournir un échantillon de voix de seulement 3 secondes et Voxtral TTS, notre modèle de synthèse vocale, s'adaptera pour capturer le ton, le rythme et la personnalité du locuteur. Vous pouvez également utiliser des voix prédéfinies ou créer votre propre bibliothèque vocale.

La transcription prend en charge 13 langues, dont l'anglais, le français, l'allemand, l'espagnol, le chinois, l'hindi, l'arabe, le portugais, le russe, le japonais, le coréen, l'italien et le néerlandais.

La synthèse vocale prend en charge 9 langues et propose des expressions idiomatiques en anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe.

Voici un exemple de combinaison de modèles Voxtral pour former un pipeline de parole à parole :

Voxtral Realtime transcrit la parole entrante, un autre modèle de langage Mistral analyse la transcription et détermine une réponse, puis Voxtral TTS génère la sortie vocale.

Chaque composant peut être personnalisé et déployé indépendamment.

L'adaptation vocale interlinguistique signifie que le pipeline peut également gérer la traduction simultanée tout en préservant l'accent et l'identité du locuteur.

Oui, vous pouvez auto-héberger Mistral Speech ou le déployer sur Mistral Compute.

Créez votre avenir en matière d'IA.

L'IA audio la plus expressive, la plus précise et la plus ouverte pour les entreprises.