Les assistants vocaux numériques sont de plus en plus populaires auprès de client et pénètrent de plus en plus dans les domaines de la vie, y compris la banque. Par exemple, comdirect offre des renseignements sur les cours via Alexa et Google Home. Les assistants linguistiques de Google peuvent également être utilisés pour vérifier les soldes des comptes et préparer les transferts.

Mais quelles sont les règles les plus importantes lors du développement d’une interface utilisateur basée sur la langue ? Dans le cadre du séminaire “Voice Based Apps – Speech Assistants and their Effects on Interface Design” du programme d’études Interfacedesign, les étudiants de l’Université des sciences appliquées de Potsdam ont élaboré un guide.

Les points les plus importants dans la conception des assistants vocaux

Ci-dessous, vous trouverez les cinq points les plus importants à prendre en compte lors de la conception des assistants vocaux:

  • Tout d’abord

Cette base de conception n’est pas seulement valable pour les interfaces clients basées sur la parole, mais elle est d’une importance élémentaire. La sortie vocale ne peut fournir qu’une seule information à la fois dans la phrase parlée. Exemple : dans un e-mail de confirmation normal, le titre “Réservation réussie” et les spécifications en caractères gras, comme les numéros de siège réservés, fournissent à l’utilisateur toutes les données requises en quelques instants. Si un assistant vocal a été utilisé pour la réservation, cette information doit être communiquée tout aussi rapidement.

Une longue phrase de confirmation, dans laquelle la confirmation pure et les numéros de siège ne sont mentionnés qu’après plusieurs secondes, déstabilise le client. Selon notre expérience, une déclaration concise et hiérarchisée est la plus logique : “Les places 44 à 46 du théâtre Hans Otto ont été réservées avec succès. La représentation aura lieu le 24 avril à 20 heures…”.

  • Restez concentré

Une langue simple est encore plus importante dans une interface utilisateur basée sur la langue que dans une interface client graphique. La langue est souvent utilisée comme un volet d’interaction alternatif à l’action primaire. Par exemple : lire la recette pendant la cuisson ou entrer les données de navigation pendant la conduite d’une voiture. Cependant, si les instructions vocales sont trop complexes, l’équilibre entre l’action primaire (conduite) et secondaire (saisie de la navigation) n’est plus maintenu ; le conducteur doit se concentrer davantage sur l’assistant vocal que sur son action réelle.

Les appareils de navigation tentent depuis le début de contourner ce problème avec une parole plus simple : “Tournez à gauche dans 300m”. Cette méthodologie fonctionne également dans tous les autres domaines d’application des assistants linguistiques. Les commandes vocales sont utilisées lorsque les mains sont occupées à d’autres choses. La concentration ne doit pas être perturbée par des structures de phrases compliquées. Des commandes vocales claires et courtes doivent être interprétées et appliquées immédiatement par les assistants.

  • Temps de réaction rapide

Avec une interface utilisateur basée sur la parole, il ne devrait pas y avoir de pauses dans la communication, car cela frustrerait les utilisateurs. Les interfaces utilisateur graphiques présentent l’avantage que les opérations de traitement puissent être indiquées par des symboles tels que circuit de charge ou sablier. Cela ne fonctionne pas avec la voix. Les demandes de renseignements doivent donc être traitées le plus rapidement possible, car une communication fluide est également attendue dans l’interaction orale entre l’homme et la machine.

  • Les signaux visuels comme signe d’activité

Les assistants vocaux sont animés par un mot signal comme “Alexa” ou “OK Google”. Des tests ont montré que de nombreux utilisateurs ne font pas confiance à cette seule parole et veulent un signal visuel lorsque l’assistant vocal écoute. Cela pourrait être un feu clignotant, par exemple.

  • Concevoir une interface utilisateur linguistique différemment d’une interface graphique

Même si les deux sont des formes de communication entre l’homme et la machine, elles sont soumises à des règles différentes. Nos tests ont montré les modèles de conception graphique, auxquels la plupart des utilisateurs sont habitués, ne peuvent pas être simplement transférés dans une interface client basée sur la langue. L’utilisateur a un aperçu immédiat des fonctions disponibles. Les exigences juridiquement contraignantes (telles que les mentions légales et la politique de confidentialité) peuvent simplement être affichées de manière hiérarchique. Cela pose problème avec une interface vocale : un utilisateur ne veut pas se voir proposer une longue liste d’options de navigation, mais veut appeler directement une fonction. Dans l’interface graphique, les solutions peuvent être affichées et le client peut choisir les différentes étapes. Avec une interface vocale, il s’attend à ce que le système reconnaisse la solution de manière indépendante et fournisse les informations appropriées en réaction.

Les points à éviter lors de la conception d’assistants vocaux

Les cinq points à éviter lors de la conception d’assistants vocaux sont énumérés ci-dessous:

  • Modules de langue inconnue

Avec une interface client graphique, le client peut “cliquer à leur guise” d’un point d’édition à l’autre. Cette possibilité de s’orienter n’est pas applicable à l’interface vocale. Il faut une pensée et une conception holistique et intégrante au sens du langage : En plus de “Siri, continuez”, “Siri, prochaine étape”, “Siri, prochaine” et autres, le système doit également comprendre les termes “Siri, continuez”, “Siri, prochaine étape” et autres termes similaires. Des assistants intelligents et auto-apprenants s’adaptent aux besoins de chaque utilisateur. Les systèmes manuels ne répondront probablement jamais aux attentes des utilisateurs.

Les applications qui répondent en permanence par “Désolé, je n’ai pas compris ça” perturbent énormément le flux de travail et obligent l’utilisateur à s’adapter au système. Cependant, tant que les assistants vocaux ne comprennent pas l’utilisateur sur le plan technique, les interruptions d’interaction dans les interactions vocales entraîneront des problèmes d’acceptation pour les assistants vocaux.

  • Réponses longues

Alors que les utilisateurs peuvent décider eux-mêmes ce qu’ils veulent lire ou vers quoi ils veulent naviguer dans une interface graphique, ils sont à la merci de la compréhension de l’assistant vocal dans l’interface vocale. Si une information ou une réponse est lue et que l’utilisateur sont incompris, inattentif ou connaisse déjà la réponse, il doit soit entendre des informations redondantes, soit interrompre l’assistant.

Les deux options ne sont pas bonnes non plus. Cela peut être évité grâce à de courtes interactions linguistiques. Pour une communication plus longue (par exemple, résultats de recherche sur le web), l’assistant linguistique peut être assisté visuellement. À l’avenir, il est possible d’imaginer des fonctions qui offrent à l’utilisateur la possibilité de raccourcir la sortie ou de ne faire répéter que les parties pertinentes.

  • Considérer les assistants linguistiques comme un remplacement pour les autres interfaces

Les interfaces utilisateur basées sur la langue offrent des possibilités qui ne sont pas possibles avec les interfaces graphiques client – ou d’autres moyens de communication tels que le contrôle des gestes. Mais les deux ne s’excluent pas mutuellement. On le voit dans les “grands” du secteur des assistants vocaux : Siri, Google Assistant et Cortana peuvent tous être contrôlés manuellement. Dans certaines circonstances, cette solution est plus pratique que la variante vocale, par exemple dans un environnement bruyant ou avec un contenu confidentiel.

Si l’utilisateur est obligé d’interagir par la voix dans n’importe quelle situation possible, cela limite ses possibilités d’utilisation. La conception des dialogues vocaux doit donc être vérifiée et optimisée en fonction du contexte. En général, on peut toutefois supposer que la parole accélère le cheminement vers les données pertinentes, mais que l’information elle-même est plus facilement transmise par des moyens graphiques.

  • Réponse de perche

Dans le cas idéal, l’interaction avec un assistant vocal est conçue de la même manière que la communication entre les personnes. Une expérience utilisateur optimale serait de parler à Alexa and Co. comme si vous parliez à votre assistant personnel. Des règles sociales qui devraient également s’appliquer aux assistants linguistiques.

Exemple : l’appel à la réception de l’hôtel avec la demande d’un réveil le matin n’est pas répondu par un simple “Ok” ; chaque client de l’hôtel serait probablement – à juste titre – contrarié par cette situation. L’assistant vocal doit également répondre poliment, bien que les “ordres” qui lui sont adressés soient assez courts. Il faut toujours se demander si un signal court, peut-être audiovisuel, est suffisant ou si une réponse détaillée est nécessaire.

  • Les interruptions indépendantes

Les assistants linguistiques ont la possibilité de devenir actifs de manière indépendante. Parfois, cela est tout à fait approprié. À l’heure actuelle, par exemple, les alarmes des réveils et des minuteries sont des interactions indépendantes utiles, mais elles sont explicitement demandées par l’utilisateur et configurées à l’avance.

Nos tests ont toutefois été assez clairs dans le cas d’interruptions plus détaillées. Lorsqu’il ne s’agit plus de tonalités d’avertissement, mais de texte parlé, une telle interruption est considérée comme dérangeante et impolie.

Compréhensible : personne n’aime être interrompu au milieu d’une phrase, surtout si l’interruption n’a aucun rapport avec le sujet de conversation en cours. Ainsi, si l’interruption indépendante n’est pas souhaitée par l’utilisateur, l’utilisation ininterrompue de l’assistant vocal doit être assurée.

Conclusion : des garde-fous pour une bonne conception des assistants vocaux

La combinaison de la conception de l’interaction visuelle et vocale, c’est-à-dire de la parole et des graphiques dans l’interaction avec l’utilisateur, sera largement acceptée. Le confort accru dû à la facilité d’utilisation accélérera l’intégration des assistants vocaux dans tous les domaines de la vie – que ce soit dans la voiture, à la maison ou dans les espaces publics.

L’examen détaillé des aspects qualitatifs de la conception devient donc de plus en plus important. Une bonne conception, un bon guidage de l’utilisateur devient un avantage concurrentiel, également en raison de l’amélioration de l’accessibilité aux fonctionnalités et aux services requis – et conduit à des interfaces utilisateur meilleures, intuitives, plus rapides et finalement aussi plus agréables.

Un assistant vocal bien conçu constitue une nouvelle pierre angulaire pour les interfaces utilisateur à assistance linguistique et donc encore optimisées. Les “choses à faire et à ne pas faire” définies sont les premières lignes directrices qui devraient faciliter la prise en main et la conception d’assistants linguistiques.