La reconnaissance vocale et le traitement de la parole sont des sous-disciplines de l’intelligence artificielle. La reconnaissance vocale est devenue une fonctionnalité triviale au sein de la technologie moderne, mais les ordinateurs peuvent également évaluer les émotions, la personnalité, l’âge ou des informations sur la santé d’un locuteur avec une précision croissante. Cela va-t-il révolutionner les transactions financières via les centres d’appel ?

Les 60 ans d’histoire de la reconnaissance vocale

Depuis les premières expériences dans les années 1950 et 1960, le traitement automatique de la parole est passé de la reconnaissance de quelques mots selon le locuteur à un support largement utilisé dans la vie quotidienne. Indépendamment du locuteur et de plus en plus de la langue, des vocabulaires allant jusqu’à un million et plus sont aujourd’hui reconnus, même dans des conditions acoustiques défavorables, parfois avec une précision supérieure à celle d’un seul être humain.

Dans le test du “standard”, aujourd’hui, seul un mot sur vingt est mal reconnu par l’ordinateur. Il y a une vingtaine d’années, un mot sur deux était encore mal reconnu, et il y a une dizaine d’années, c’était encore un mot sur six.

Ces dernières années, cela a été rendu possible surtout par l’utilisation des réseaux neuronaux profonds et leur formation efficace sur de grandes quantités de données, ce qui, à son tour, été rendu possible par leur utilisation généralisée comme dans les recherches vocales sur Internet.

L’analyse de la parole 2.0 : inclusion du profilage du locuteur

Ces développements ont également permis des progrès dans le domaine de la compréhension de la parole, de sorte qu’aujourd’hui, nous pouvons communiquer avec des assistants tels qu’Alexa, Cortana ou Siri en grande partie naturellement par la parole, bien qu’encore assez unidirectionnelle et orientée vers le commandement. Dans le même temps, la reconnaissance et la vérification des locuteurs se sont développées rapidement. Il est désormais possible de segmenter automatiquement un enregistrement sonore en fonction des haut-parleurs qu’il contient, même si ceux-ci et leur nombre sont inconnus et même s’ils parlent simultanément (“qui parle quand”). Cependant, la synthèse vocale ou la transformation de la voix se sont améliorées de telle sorte que la certitude de reconnaître la voie authentique d’une personne est de plus en plus réduite, puisque la voix pourrait être imitée.

En revanche, les progrès dans le domaine de la “paralinguistique” – la reconnaissance de ce qui est contenu dans la langue “autrement” – sont encore moins connus. En effet, ces informations, qui peuvent être tirées du son de la voix ainsi que du choix des mots, contiennent une information étonnamment riche sur l’état et les caractéristiques d’un locuteur. Dans les années 1990, l’intérêt s’est surtout porté sur la reconnaissance automatique de l’émotion du locuteur et de son état de stress. Ces dernières années, cependant, la gamme des caractéristiques automatiquement reconnaissables s’est considérablement élargie. Les états d’un locuteur, par exemple, l’intérêt, la fatigue, l’ivresse, la charge physique et cognitive, la sincérité, le destinataire (comme les enfants, les parents ou les supérieurs) ou les états tels que l’alimentation (y compris une estimation approximative de ce qui est mangé) jusqu’au rythme cardiaque peuvent être “entendus” automatiquement à partir de la voix jusqu’à une déviation de quelques battements par minute.

En ce qui concerne les caractéristiques personnelles, l’éventail des possibilités comprend le sexe, l’âge à quelques années près, la taille à quelques centimètres près, le profil de la personnalité (basé sur le modèle à cinq facteurs – ouverture à l’expérience, conscience, extraversion, tolérance, névrose), l’état de santé (diagnostics allant du simple rhume au diagnostic précoce et novateur concernant l’état de santé d’une personne) et la capacité à “entendre” la voix (Alzheimer, autisme, bipolarité, Parkinson, syndrome de Rett ou X fragile, ou divers cancers) ou la langue maternelle même lorsqu’une autre langue est parlée et peut être appréciée en termes de degré de maîtrise d’une langue étrangère ou de charisme et de qualités de leader.

La littérature fait notamment état de diverses autres expériences qui prouvent qu’un ordinateur est de plus en plus capable d’évaluer une personne de la même manière qu’un être humain lorsqu’il l’entend pour la première fois – par exemple, lorsque nous entendons une nouvelle personne au téléphone et que nous commençons à nous faire une idée de cette personne. Souvent, cependant, l’ordinateur est déjà capable de le faire au-delà de nos capacités, comme l’ont montré, par exemple, des études de perception sur les performances humaines en matière d’évaluation du taux d’alcoolémie de locuteurs ivres.

Potentiel dans le secteur bancaire

La banque vocale est déjà une réalité, mais quelles sont les méthodes disponibles à l’avenir ? Les assistants vocaux mentionnés au début peuvent non seulement être développés en termes de communication plus naturelle, mais ils feront de plus en plus preuve de compétence émotionnelle et sociale. Par exemple, les systèmes de dialogue de nouvelle génération d’assistant vocal peuvent être étendus pour inclure le profilage automatique des clients pour l’adaptation ou l’évaluation du dialogue.

Contrairement aux interlocuteurs humains, l’ordinateur a également la capacité de fournir une attention totale et, si nécessaire, une adaptation parfaite sans fatigue. Elle peut également, si on lui en donne l’occasion, tirer des enseignements de ses relations avec des millions de clients. Les analyses vocales par ordinateur peuvent, comme prévu, atteindre une précision nettement supérieure à celle des humains. Par exemple, un assistant vocal automatique peut parfaitement faire correspondre des modèles de comportement acoustique et linguistique aux clients lorsqu’il synthétise “sa” voix et choisit ses mots, de sorte qu’il puisse être perçu comme sympathique, par exemple. Il peut entendre exactement quand l’attention et l’intérêt ou l’affection du client sont élevés, par exemple pour faire de la publicité pour des produits et des services à bas prix. Et il peut apprendre quel groupe de clients est le mieux servi et de quelle manière, en suivant le rythme des changements et des tendances sociales et entre les cultures.

Le traitement de la parole changera-t-il les services bancaires?

D’une part, cela est dû au fait que les assistants vocaux sont déjà de plus en plus courants dans notre vie quotidienne et que l’interaction ainsi que la communication avec les systèmes techniques seront à l’avenir de plus en plus basées sur le langage naturel. D’autre part, les possibilités décrites offrent un énorme potentiel pour un service à la clientèle largement exempt d’erreurs, parfaitement adapté et toujours disponible, qui peut être évalué et analysé en même temps d’une manière encore inconnue.

Sans aucun doute, les questions de sécurité et de vie privée des clients ainsi que l’éthique générale et la situation juridique doivent alors être priorisées à l’avance, accompagnées et durables. Par ailleurs, dans le domaine de l’intelligence artificielle, l’accent est mis à juste titre sur les questions actuelles d’explicabilité, de responsabilité et de fiabilité des systèmes techniques correspondants.