Taux d'erreur de mots

Page d’aide sur l’homonymie

Pour les articles homonymes, voir WER.

Le taux d'erreur de mots, ou word error rate (WER) en anglais, est une unité de mesure classique pour mesurer les performances d'un système de reconnaissance de la parole.

Le WER est dérivé de la distance de Levenshtein, en travaillant au niveau des mots au lieu des caractères. Il indique le taux de mots incorrectement reconnus par rapport à un texte de référence. Plus le taux est faible (minimum 0.0) plus la reconnaissance est bonne. Le taux maximum n'est pas borné et peut dépasser 1.0 en cas de très mauvaise reconnaissance s'il y a beaucoup d'insertions.

Après avoir aligné de manière optimale la référence avec le texte reconnu grâce à un algorithme de programmation dynamique, le taux d'erreur de mots est donné par :

W E R = S + D + I N {\displaystyle WER={\frac {S+D+I}{N}}}

où :

  • N {\displaystyle N} est le nombre de mots de référence,
  • S {\displaystyle S} est le nombre de substitutions (mots incorrectement reconnus),
  • D {\displaystyle D} est le nombre de suppressions (mots omis),
  • I {\displaystyle I} est le nombre d'insertions (mots ajoutés),
  • H {\displaystyle H} est le nombre de mots correctement reconnus.

Le taux de reconnaissance de mots, ou word accuracy (WAcc) en anglais, est défini ainsi :

W A c c = 1 W E R = N S D I N = H I N {\displaystyle WAcc=1-WER={\frac {N-S-D-I}{N}}={\frac {H-I}{N}}}

Ce taux de reconnaissance peut être négatif.

Références

  • McCowan et al. 2005: On the Use of Information Retrieval Measures for Speech Recognition Evaluation
  • Speech Processing Glossary
  • icône décorative Portail de l’informatique