Designer spécialisé dans la conception d’interfaces conversationnelles vocales assistants intelligents (Alexa, Google Assistant), systèmes embarqués (voitures, objets connectés), applications téléphoniques ou chatbots vocaux. Il conçoit non pas des écrans à regarder, mais des dialogues à écouter et à prononcer, en tenant compte des spécificités humaines de la parole : mémoire de travail limitée, impossibilité de « relire », tolérance zéro à l’ambiguïté et contextes d’usage souvent bruyants ou multitâches.
Mission principale
Transformer une intention utilisateur en conversation fluide, naturelle et efficace sans support visuel. Le spécialiste VUI définit le flux des dialogues (« prompt design »), anticipe les formulations variées des utilisateurs (utterances), gère les malentendus ou non-réponses avec empathie, et structure l’information pour qu’elle soit mémorisable à l’oral. Son défi : faire en sorte que l’utilisateur se sente compris par la machine sans jamais lever les yeux de la route, de sa recette de cuisine ou de son bébé qui pleure.
Compétences clés
- Maîtrise du conversation design : écriture de dialogues courts, tournures naturelles (éviter le jargon technique), gestion des tours de parole
- Connaissance des technologies sous-jacentes : ASR (Automatic Speech Recognition), NLU (Natural Language Understanding), TTS (Text-to-Speech) pour concevoir dans les limites réelles des systèmes
- Empathie contextuelle : adaptation du ton et du rythme selon le scénario (urgence médicale vs. divertissement) et l’environnement (bruit de voiture, cuisine agitée)
- Tests utilisateurs en situation réelle : observation des formulations spontanées, tolérance aux erreurs de reconnaissance, gestion de la frustration
- Collaboration avec les équipes NLP/data science pour enrichir les modèles de compréhension avec des données réelles d’usage
- Accessibilité vocale : prise en compte des particularités (débit lent, accent, bégaiement, déficience auditive partielle)
Spécificités métier
Le spécialiste VUI travaille dans un médium contraignant : la parole ne laisse pas de trace visible, l’attention est volatile et l’utilisateur ne peut pas « scroller » pour retrouver une information oubliée. Une erreur de design un menu vocal à 7 options énoncées trop vite génère immédiatement de la frustration et l’abandon du système. Son métier exige une double culture : linguistique (prosodie, grammaire conversationnelle) et technique (latence acceptable, seuils de confiance des modèles). Avec l’essor de l’IA générative, le rôle évolue vers la conception de conversations ouvertes et contextuelles plutôt que de menus rigides prédéfinis.
À ne pas confondre avec
Le UX designer classique qui conçoit des interfaces visuelles où l’utilisateur peut scanner, relire et cliquer librement.
Le data scientist NLP qui entraîne les modèles de compréhension du langage sans concevoir l’expérience conversationnelle globale.
Le scriptwriter ou copywriter qui écrit des textes marketing : le VUI designer écrit pour être entendu, pas lu ce qui impose des contraintes rythmiques, syntaxiques et mémorielles radicalement différentes.
Le spécialiste VUI ne code pas l’ASR ni ne produit la voix synthétique : il conçoit le dialogue qui rendra l’interaction humaine, même quand la technologie bute.
Fourchette de salaire
Métier encore niche en France, souvent intégré dans des équipes UX ou produit plus larges :
- Junior (2-4 ans, souvent issu du conversation design ou de la linguistique appliquée) : 38 000 € à 50 000 € bruts annuels
- Confirmé (5-8 ans, avec expérience sur des produits grand public déployés) : 50 000 € à 70 000 € bruts annuels
- Senior / Lead dans des contextes exigeants (automobile connectée, santé vocale, assistants grand public) : 70 000 € à 90 000 €+ bruts annuels
Le spécialiste VUI est à l’interface vocale ce que le scénariste de radiothéâtre était à l’ère pré-télévision : il ne peut compter sur aucune image pour soutenir son récit chaque mot, chaque pause, chaque intonation doit porter seul le sens et l’émotion. Un silence trop long crée de l’angoisse ; une phrase trop longue épuise la mémoire ; un vocabulaire trop technique brise le pacte de confiance. Sans lui, la machine parlerait comme un robot avec lui, elle devient un interlocuteur qui écoute, comprend et répond comme un humain bienveillant.