Resynchronisation des sous-titres

En France, le sous-titrage des programmes en direct pose problème : la fabrication des sous-titres entraine un retard d’affichage d’au moins 8 secondes par rapport à l’image. Ce délai est d’autant plus grand dans le cas où le contenu n’a pas pu être anticipé comme une interview ou un sujet de dernière minute. Donc, si les sous-titres apparaissent avec autant de retard, se pose un vrai problème de compréhension : on lit les mots d’une personne sans lien apparent avec ce qui est montré à l’image.

C’est dans le non-linéaire (Replay) que l’on va pouvoir offrir une meilleure solution : automatiser la resynchronisation des sous-titres afin que ceux-ci soient calés précisément sur les mots prononcés par les locuteurs.

Une solution a été mise en œuvre grâce au projet SubTil(*). Voici comment cela fonctionne :

  • au départ, il faut le programme (audio + vidéo) et le fichier de sous-titrage produit en direct
  • l’audio est analysé par une brique de Speech-to-Text, il s’agit d’une fonction d’Intelligence Artificielle qui sait reconnaître les mots prononcés dans une langue donnée, à partir de l’analyse visuelle de la forme d’onde
  • en sortie de cette brique de Speech-to-Text, les mots prononcés sont comparés avec ceux issus du sous-titrage produit en direct
  • grâce à l’étude des correspondances, moyennant l’ajout de plusieurs règles pour gérer les répétitions de mots à l’oral ou les mots imparfaitement reconnus, les éléments de sous-titrage sont resynchronisés vis-à-vis de l’audio
  • une adaptation finale permet de prendre en compte le confort de lecture des sous-titres en fonction de leur longueur. Le cas échéant, la synchronisation ne sera pas strictement respectée au profit de ce confort de lecture