Introduction à VoiceXML: Introduction à VoiceXML

Par Alain Jaouen

Une des tendances majeures de la téléphonie est la téléphonie sans-fil et mobile. S’il existe aujourd’hui dans le monde environ 1 milliard de lignes fixes de téléphone pour 500 à 700 millions d’abonnés mobiles (les chiffres varient selon les instituts), tout le monde s’accorde sur le fait que ces courbes vont inéluctablement se croiser vers 2005 et que la fin de cette décennie verra la prédominance du sans-fil sur le filaire, du mobile sur le fixe.

Nous avons aujourd’hui sur la planète 1,5 milliard de téléphones dont les deux tiers sont des téléphones filaires, et nous aurons en 2005 environ 2 milliards de téléphones dont la moitié sera toujours constituée de téléphones filaires. Soit beaucoup plus que d’ordinateurs personnels. De plus, ces téléphones sont utilisés par à peu près tout le monde ce qui n’est pas la cas avec les PCs dont la complexité rebute encore une partie du grand public.

En partant de ce constat, certains se sont posé la question suivante : comment rendre le contenu et les services du Web accessibles, comment donner accès aux systèmes d’informations des entreprises à une personne disposant uniquement d’un téléphone ? Comment faire cela sur les téléphones filaires comme sur les mobiles ?

Au milieu des années 90, quatre chercheurs des Bell Labs d’AT&T, Dave Ladd, Chris Ramming, Ken Rehor et Curt Tuckey ont une idée : une passerelle (ou gateway, en anglais) équipée d’un browser vocal qui interprète un langage de dialogue pour délivrer du contenu et des services web à un téléphone ordinaire. Ainsi commença le projet «Phone Web». Lorsque AT&T se sépare de Lucent, Chris reste chez AT&T, Ken suit Lucent et Dave et Curt partent chez Motorola. Le projet ne meurt pas pour autant, chacun continue le développement dans son entreprise respective.

Début 1999, le langage PML (Phone Markup Language) souffre d’incompatibilités entre AT&T et Lucent ; Motorola développe « VoxML » et d’autres compagnies ont aussi créé leur propre langage, en particulier IBM avec SpeechML. Un standard s’impose.

AT&T, IBM, Lucent Technologies et Motorola fondent alors le VoiceXML Forum (http://www.voicexml.org) avec pour mission de rédiger la spécification du langage VoiceXML. Fondée par ces quatre entreprises en 1999, cette organisation professionnelle connaît un très grand succès et regroupe aujourd’hui près de 600 membres, soit la grande majorité des entreprises travaillant dans les technologies du vocal.

Après avoir publié la version 1.0 de la spécification du langage en mars 2000, le VoiceXML Forum se concentre ensuite sur des actions de promotion du standard, de formation des acteurs de l’industrie et des services de tests de conformité des implémentations.

Depuis mi-2000, le standard est géré par le World Wide Web Consortium (W3C), plus précisément, par le Voice Browser Working Group (http://www.w3.org/voice).

Ce groupe a défini le « W3C Speech Interface Framework » composé de l’ensemble des spécifications définissant les langages nécessaires pour le développement d’applications vocales. Ce groupe a publié le 16 mars 2004 la recommandation finale VoiceXML 2.0. Elle comporte des améliorations notables comme des formats standards de grammaire et des clarifications de la version 1.0.

Le « W3C Speech Interface Framework » intègre également des langages pour la synthèse vocale (SSML), la reconnaissance vocale (SRGS, SISR) , le traitement d’appel (CCXML : Call Control XML), d’un grand intérêt pour les applications de couplage téléphonie-informatique (CTI), telles que les applications pour centres d’appels.

Qu'est-ce que VoiceXML ?

VoiceXML est donc un langage de programmation des interactions vocales hommes-machines. VoiceXML est un « markup language » comme HTML. La différence : HTML est utilisé par votre browser Web pour formater le contenu présenté; VoiceXML est utilisé par un Voice Gateway, encore appelé Voice Browser. Une application développée en VoiceXML peut parler à un utilisateur via des films audios pré-enregistrés ou de la synthèse de la parole. Elle peut recevoir également en entrée des commandes via de la reconnaissance vocale ou la saisie de codes DTMF sur les touches de votre téléphone.

Pour bien comprendre le bénéfice de ce standard, faisons un petit retour en arrière rapide sur les techniques de développement d’applications informatiques.

Dans les années 80, les développeurs d’applications se concentraient sur l’interface PC. L’interface utilisateur nécessitait une programmation complexe de code graphique et de gestion d’évènements comme les déplacements et clicks de la souris. Résultats : peu d’innovations au niveau individuel, les logiciels les plus utilisés étant le fait de grandes entreprises.

Dans les années 90, apparaît le Web et ses navigateurs, Netscape Navigator et Microsoft Internet Explorer principalement. Les programmeurs sont alors en mesure de créer des systèmes complets en écrivant leurs applications avec du simple code HTML pour la partie interface homme-machine. Résultat: une myriade d’innovations, avec des services Web écrits en quelques mois par un petit groupe de personnes. Voir Yahoo comme exemple-type.

Revenons au développement d’une application vocale.

Dans les années 80 et 90, vous deviez louer des lignes téléphoniques, acheter un système spécialisé pour reconnaître les codes DMTF, un autre pour parler à l’utilisateur, et un troisième pour exécuter votre application écrite dans un langage de scripts proriétaires. Résultats de ces 2 décennies : peu d’innovations dans des applications vocales souvent lourdes à utiliser, avec seulement des très grandes entreprise offrant des accès par téléphone à leurs systèmes d’informations.

Avec l’apparition des Voice Browsers, nous allons assister dans les années à venir à une période de grandes innovations dans le domaine des applications vocales. Avec un service Web, vous utilisez simplement un serveur HTTP connecté à Internet, sur lequel tourne votre application. Quelqu’un d’autre, en l’occurrence l’utilisateur sur son PC, exploite un browser pour accéder à votre contenu ou votre application.

L’idée du Voice Browser est la même. Vous utilisez un serveur HTTP exécutant votre application. Quelqu’un d’autre exploite les lignes téléphoniques et les Voice Browsers, par exemple un opérateur de téléphonie.

Conclusion : les Voice Browsers vous permettent de construire des applications vocales pour 2 milliards de téléphones à partir d’un simple serveur HTTP. De cela, va découler une période de grandes innovations dans les services vocaux. C’est la vraie révolution de VoiceXML.

Il existe déjà des Voice Browsers en libre service aux Etats-Unis, tels que ceux de Tellme (http://www.tellme.com) et VoiceGenie (http://www.voicegenie.com). Ils prennent les pages VoiceXML de votre serveur http et les restituent sous forme vocale à l’utilisateur. Si votre application nécessite des commandes de l’utilisateur, le Voice Browser interprète la saisie ou la commande vocale et la passe à votre serveur dans un format que votre logiciel peut comprendre.

Voxpilot (http://www.voxpilot.com) offre le même niveau de service en Europe. La plate-forme Voxpilot intègre également les fonctions de synthèse vocale et reconnaissance vocale dans plus de dix langues. Les développeurs VoiceXML peuvent se créer un compte sur l’Extranet voxBuilder de Voxpilot ( http://www.voxbuilder.com/ ); développer leurs pages VoiceXML et appeler un numéro de téléphone qui leur permettra de tester l’application développée.

Quels services avec VoiceXML ?

Les applications possibles avec VoiceXML sont nombreuses. J’en citerai quelques-unes pour mémoire. Ce sont des services de portails (Voice Portals), les services d'annuaires, des services de frontal pour les centres d’appels, des applications mains-libres ainsi que de multiples applications sectorielles.

Celle qui retient le plus d’attention aujourd’hui dans les médias est le concept de portail vocal. Il combine le Web et le VoiceXML pour permette à l’utilisateur de configurer les services qui l’intéressent par un site Web, puis de les consulter périodiquement par téléphone. Ces services sont généralement ceux que l’on trouve sur un portail Web, à savoir la météo, la bourse, l’actualité, le sport, les infos trafic, des services de messagerie unifiée et de commerce électronique ; on parle alors de V-Commerce.

On peut imaginer d’autres applications utilisant intensivement la voix, comme les systèmes de navigation assistée en voiture. Un city-guide peut, par exemple, proposer un service de navigation urbaine. Le conducteur via un kit mains-libres fait appel à ce service pour trouver une adresse spécifique et est guidé par le service de navigation.

Ces services très prometteurs doivent encore trouver leurs modèles économiques pour se développer. Plusieurs pistes sont envisagées ; parmi elles, les partenariats avec les opérateurs de téléphonie, la publicité par téléphone, en particulier, la publicité locale, ou l’hébergement d’applications pour les entreprises.

Cela n’empêche pas le cabinet de prospective Cahners InStat d’être optimiste. Il prévoit qu’en 2005, les applications vocales représenteront un marché de 45 milliards de dollars, dont environ 2 milliards pour les portails.

En conclusion, les applications vocales à destination de tous les types de téléphones sont promises à un fort développement dans les années qui viennent avec beaucoup de compétitions entre les acteurs du vocal et beaucoup d’innovations dans les services. Et VoiceXML sera alors la technologie clé de cette révolution. Elle est applicable dans de nombreux domaines, elle rénove les usages du réseau téléphonique et elle est le standard de facto supporté par toute l’industrie.

VoiceXML Weblog

Comprendre

Liens

Posts Récents

Introduction à VoiceXML

0 commentaire(s) :