Dans notre série de blogs « Rencontrez les inventeurs de l’avenir de la vidéo », nous nous entretenons avec certains des talents les plus brillants d’Ateme pour savoir sur quoi ils travaillent. Dans la quatrième partie de la série, Marwa Tarchouli, Ingénieur Recherche et Développement, parle de la Compression Vidéo Neuronale et l’avenir des expériences visuelles de meilleure qualité.
Quel est votre rôle chez Ateme ?
Doctorante au sein du cabinet CTO d’Ateme, je travaille en collaboration avec l’INSA. Mon travail de thèse porte sur les modèles neuronaux de compression vidéo. J’étudie leurs différentes architectures et développe des solutions pour dépasser leurs limites.
Sur quoi avez-vous travaillé en particulier chez Ateme ?
Dernièrement, j’ai travaillé sur le développement d’une solution à la limitation matérielle de la saturation de la mémoire. Les codecs vidéo neuronaux rencontrent cette limitation lors de séquences à haute résolution. J’en parle plus dans mon article, « Patch-based Image Coding with End-to-End Learned Codec using Overlapping« . Ceci était publié dans le cadre de la 12e Conférence internationale sur le traitement d’images numériques et la reconnaissance de formes (DPPR 2022).
Qu’est-ce que la Compression Vidéo Neuronale ?
Les modèles de compression vidéo neuronale sont basés sur des architectures d’apprentissage en profondeur. Il s’agit notamment du réseau antagoniste génératif (GAN), des transformateurs et des réseaux de neurones récurrents (RNN). Les RNN capturent les dépendances temporelles entre les trames. C’est-à-dire les cycles d’apprentissage reliant les comportements passés aux comportements actuels.
Les modèles sur lesquels je travaille sont principalement construits sur l’architecture de l’auto-encodeur. Dans ce cas, un encodeur transforme la trame d’entrée en une représentation plus compacte et compressée dite représentation latente. Ensuite, la représentation est quantifiée, encore plus compressée et envoyée au côté décodeur.
Quels défis industriels relève-t-elle ?
L’industrie de la vidéo doit garantir des images de haute qualité pour fidéliser les téléspectateurs. De plus, avec l’augmentation spectaculaire du trafic vidéo sur Internet, il doit également réduire au maximum les données vidéo pour éviter les goulots d’étranglement.
La compression vidéo neuronale vise à trouver un compromis entre la qualité de la vidéo reconstruite et le débit utilisé pour la transmettre.
Qu’avez-vous réalisé dans ce domaine chez Ateme ?
Comme mentionné précédemment, dans le cadre de mon travail de doctorat, j’ai proposé une solution à la limitation matérielle à laquelle les codecs vidéo neuronaux sont confrontés. Lors du codage des trames haute résolution, les codecs vidéo neuronaux rencontrent un problème de saturation mémoire qui rend la compression impossible. Ma solution consiste donc à coder l’image vidéo en divisant en patches, ce qui remédie au problème de saturation mémoire. En outre, la méthode de chevauchement élimine les artefacts de bord. Cette méthode exploite également le codage parallèle pour profiter au maximum de la mémoire disponible et ainsi réduire le temps de codage.
Qu’est-ce que la Compression Vidéo Neuronale change pour les téléspectateurs ?
Le but est de réduire autant que possible les données vidéo tout en conservant la meilleure qualité vidéo. Dans ce contexte, l’exploration de techniques d’apprentissage en profondeur pourrait être une bonne direction pour atteindre cet objectif. Quoi qu’il en soit, le domaine de la compression vidéo neuronale progresse rapidement. D’après mes recherches et mon travail, je pense qu’il sera bientôt beaucoup plus courant pour les téléspectateurs de profiter d’une vidéo de haute qualité, même pendant les heures de pointe.