Reconnaissance faciale et positionnement des sous-titres

La compréhension d’une œuvre de fiction en l’absence d’accès à la bande-son est rendue possible grâce au sous-titrage « sourds et malentendants ». Pour que la lecture des sous-titres soit encore plus confortable, on peut imaginer qu’ils soient placés au niveau de la personne qui parle.

Obéissant à une charte édictée à la demande du Conseil Supérieur de l’Audiovisuel, la confection de ces sous-titres implique l’usage de codes couleurs pour distinguer les dialogues des commentaires, les dialogues hors champs, la musique et les bruitages indispensables à la compréhension du programme.

Autant que possible, l’auteur des sous-titres veillera à placer chaque réplique sous le locuteur qui la prononce. Cette consigne supplémentaire apporte une plus-value importante pour saisir le sens des dialogues en explicitant le « qui dit quoi », mais le respect de ce placement prend du temps et représente un surcoût de production puisqu’il faut tenir compte de la durée d’exposition de chaque réplique ainsi que les différents changements de plan. Lors d’un jeu de champ/contre-champ, une comédienne peut être placée à gauche puis à droite de l’image tout en prononçant la même phrase, dans ce cas il faudra soit scinder la phrase et placer chaque morceau de sous-titres au bon endroit, soit conserver un sous-titre placé au centre de l’image et exposant la phrase complète.

Une solution a été développée dans le cadre de SubTil, voici ce que ça donne :

  • au départ, il faut le programme (audio + vidéo) et le fichier de sous-titrage associé
  • l’audio est analysé par une fonction d’Intelligence Artificielle afin de reconnaître quel comédien ou quelle comédienne est en train de parler
  • l’audio est ensuite analysé par une fonction de Speech-to-Text afin de reconnaître les mots-clés nécessaires à l’affectation des sous-titres existants aux différents locuteurs
  • puis la vidéo est analysée par une fonction d’Intelligence Artificielle qui sait reconnaître les visages des différents comédiens du programme et repérer leur position dans l’image
  • à l’aide de toutes ces informations, les sous-titres correctement identifiés sont déplacés automatiquement sous le visage de leur locuteur pour venir renforcer la notion de « qui dit quoi »
  • l’algorithme est également capable de scinder les sous-titres en tant que répliques distinctes afin de les attribuer à leurs locuteurs respectifs.