Dans quelle mesure les sous-titres automatiques sont-ils précis ?
Dans des conditions idéales, les sous-titres automatiques dans les langues parlées peuvent atteindre une précision allant jusqu'à 98 %, évaluée par le taux d'erreur sur les mots (WER).
Le sous-titrage est un moyen efficace d'améliorer l'accessibilité, l'engagement et la mémorisation des informations lors des présentations et des événements en direct.
Le sous-titrage automatique convertit la parole en texte qui s'affiche à l'écran en temps réel, dans la même langue que la parole. La reconnaissance vocale automatique (ASR) est une forme d'intelligence artificielle utilisée pour produire ces transcriptions de phrases prononcées.
Taux d'erreur des mots
Pour évaluer la précision du sous-titrage automatique, l'indicateur le plus couramment utilisé est le taux d'erreur sur les mots (WER). Ce taux mesure le nombre d'erreurs dans la transcription automatique par rapport aux mots prononcés par le locuteur. Il permet ainsi de déterminer la qualité de la conversion de la parole en texte par le système automatique.
Par exemple, si 4 mots sur 100 sont incorrects, la précision serait de 96 %.
Le taux d'erreur sur les mots (WER) est une mesure de la précision du sous-titrage automatique. Il aligne les séquences de mots correctement identifiées avec précision avant de calculer le nombre total de corrections nécessaires pour un alignement parfait entre le texte de référence et la transcription. Ce calcul prend en compte les substitutions, les suppressions et les insertions. Le WER est ensuite calculé en divisant le nombre d'ajustements nécessaires par le nombre total de mots du texte de référence. En règle générale, plus le WER est faible, plus le système de reconnaissance vocale est précis.
WER néglige la nature des erreurs
Le taux d'erreur de mots (WER) peut être trompeur car il ne nous renseigne pas sur la pertinence ou l'importance d'une erreur. Des erreurs simples, comme l'orthographe alternative d'un même mot (movable/moveable), ne sont généralement pas perçues comme telles par le lecteur, tandis qu'une substitution (exemptions/essentials) peut avoir un impact plus important.
Les taux de reconnaissance vocale (WER), notamment pour les systèmes de haute précision, peuvent être trompeurs et ne correspondent pas toujours à la perception humaine de la justesse. Pour l'être humain, il est souvent difficile de distinguer les différences de précision entre 90 et 99 %.
| Transcription originale : | Sortie des sous-titres ASR : |
| Par exemple, je souhaite que l'usage des dispositions essentielles . J'aimerais aborder un point particulier plus en détail : je crains que appeler les parlements des États membres à ratifier la convention seulement après que le rôle de la Cour de justice de l'Union européenne ait été clarifié puisse avoir des effets très néfastes. | Par exemple, je souhaiterais moi aussi que les exemptions prévues ne soient utilisées que de manière très limitée. J'aimerais aborder un point particulier plus en détail : je crains que l' appel lancé aux parlements des États membres pour qu'ils ne ratifient la convention qu'après que le rôle de la Cour de justice de l'Union européenne ait été clarifié puisse avoir des effets très néfastes. |
Taux d'erreur de mots perçu d'Interprefy
Interprefy a développé une métrique d'erreur de reconnaissance automatique de la parole (ASR) propriétaire et spécifique à chaque langue, appelée WER perçue. Cette métrique ne comptabilise que les erreurs qui affectent la compréhension humaine de la parole, et non toutes les erreurs. Les erreurs perçues sont généralement inférieures au WER, parfois même de 50 %. Un WER perçu de 5 à 8 % est généralement à peine perceptible pour l'utilisateur.
Le graphique ci-dessous illustre la différence entre le WER et le WER perçu pour un système de reconnaissance automatique de la parole (ASR) très précis. Notez la différence de performance pour différents ensembles de données (S0 à S4) d'une même langue.
Comme le montre le graphique, le WER perçu par les humains est souvent nettement meilleur que le WER statistique.

Le graphique ci-dessous illustre les différences de précision entre divers systèmes de reconnaissance automatique de la parole (ASR) fonctionnant sur le même ensemble de données vocales dans une langue donnée, en utilisant le taux d'erreur de mots perçu (WER).

Facteurs clés pour obtenir un sous-titrage codé incroyablement précis
Il y a trois points clés à prendre en compte :
- Utilisez une solution de pointe : au lieu de choisir un moteur standard pour couvrir toutes les langues, optez pour un fournisseur qui utilise le meilleur moteur disponible pour chaque langue de votre événement.
- Optimisez le moteur : choisissez un fournisseur capable de compléter l’IA avec un dictionnaire sur mesure afin de garantir que les noms de marque, les noms inhabituels et les acronymes soient correctement pris en compte.
- Assurez-vous d'une entrée audio de haute qualité : si la qualité audio est mauvaise, le système de reconnaissance automatique de la parole (ASR) ne pourra pas fournir une restitution optimale. Veillez à ce que la voix soit captée forte et claire.