Et si vous pouviez participer à une réunion Zoom sans allumer votre caméra, tout en conservant une présence visuelle crédible et expressive à l’écran ? C’est précisément ce que propose Zoom avec sa nouvelle fonctionnalité en développement : la possibilité d’activer un double numérique, généré par intelligence artificielle, qui remplace votre flux vidéo réel par une version animée de vous-même.
Concrètement, cette innovation vise à créer un avatar photoréaliste, capable d’imiter vos expressions faciales et mouvements de tête à partir de votre voix captée en temps réel. Pas besoin de vous filmer, ni de rester parfaitement cadré : votre « vous » numérique prendra le relais visuel, animant vos réactions avec une fluidité proche de la réalité. L’objectif n’est pas de vous rendre absent, mais de vous offrir une forme de présence contrôlée, plus souple, moins intrusive, et (selon Zoom) plus inclusive.
La fonctionnalité a été dévoilée discrètement lors de la conférence Zoomtopia 2025, dans une session consacrée aux outils de personnalisation et à la fatigue numérique. Elle s’inscrit dans une stratégie plus large de Zoom visant à intégrer des modèles d’IA générative dans les interactions vidéo, à l’image de ses récents assistants d’écriture, de transcription ou de résumé de réunion.
La visioconférence sans caméra : une réponse à la fatigue numérique
Depuis la généralisation du télétravail, les réunions vidéo sont devenues la norme dans de nombreux secteurs. Mais cette norme a un coût : une enquête menée par Microsoft en 2023 révélait que 68 % des salariés en distanciel déclaraient ressentir une « surcharge cognitive visuelle » liée à la nécessité de rester cadré, expressif et attentif pendant plusieurs heures consécutives1.
Autre indicateur : une étude de Stanford a identifié quatre formes spécifiques de « Zoom fatigue » : surcharge cognitive, auto-surveillance constante, réduction des signaux non verbaux, et tension liée à la proximité perçue des visages à l’écran2.
Le double numérique proposé par Zoom cherche à répondre à ces limites en dissociant la captation vidéo de la représentation visuelle. Vous êtes toujours là, vous parlez, vous écoutez, vous interagissez, mais ce n’est plus votre visage en direct qui s’affiche. C’est une version synthétique de vous, générée à partir de données que vous avez fournies (photos, enregistrements de voix, mouvements faciaux). Ce double numérique reproduit vos hochements de tête, vos sourires, vos réactions brèves, de manière crédible mais sans vous exposer réellement.
Une technologie d’IA générative portée par la vidéo synthétique
Techniquement, cette fonctionnalité s’appuie sur des modèles de synthèse vidéo combinés à des algorithmes de clonage vocal et d’animation faciale. Zoom n’a pas précisé s’il s’agissait d’un modèle propriétaire ou d’un partenariat technologique, mais plusieurs acteurs du domaine (comme Synthesia, D-ID ou HeyGen) maîtrisent déjà ce type de génération à partir de photos et d’audio.
Le double numérique est d’abord construit à partir de données initiales : un court enregistrement vidéo ou une série de photos sous différents angles, couplés à un échantillon vocal. Ensuite, pendant la réunion, le modèle génère une animation du visage synchronisée avec votre voix en direct, mimant les expressions naturelles d’une personne attentive, sans nécessiter une captation vidéo réelle.
Selon Zoom, les utilisateurs pourront paramétrer le niveau d’animation souhaité : minimal (simple présence statique), modéré (animation légère), ou dynamique (expressions plus vivantes). Ce contrôle de l’image personnelle s’inscrit dans une volonté affichée d’adapter les outils aux préférences et aux sensibilités individuelles.
Une nouvelle norme de présence ? Vers une représentation synthétique généralisée
Si cette technologie devient largement adoptée, elle pourrait changer en profondeur les règles implicites des réunions à distance. Aujourd’hui, ne pas activer sa caméra est parfois perçu comme un signe de désengagement. À l’inverse, l’usage d’un double numérique pourrait offrir une alternative : être vu, sans être filmé. Cela rebat les cartes de la présence visuelle.
Mais cela soulève aussi des questions : que voit-on vraiment lorsqu’on regarde un visage synthétique ? L’attention perçue est-elle équivalente à celle d’un visage réel ? Risque-t-on une standardisation des comportements non verbaux, sourires calibrés, regards artificiels, mouvements « optimisés » pour plaire sans distraire ?
Des chercheurs en sciences sociales alertent déjà sur la désynchronisation entre image et intention, qui pourrait affecter la qualité des échanges. Si la personne affichée n’est qu’un reflet modélisé, quelle confiance accorde-t-on à ses signaux émotionnels ? Est-ce encore de la communication authentique, ou une interface simulée de présence ?
Un changement de paradigme dans la relation à soi en ligne
Derrière cette innovation, c’est une nouvelle relation à l’identité numérique qui se dessine. Jusqu’ici, la visioconférence nous obligeait à montrer notre vrai visage, à gérer notre image en direct, avec ses imperfections, ses signes de fatigue ou de tension. Avec le double numérique, cette exposition est atténuée, voire contournée.
On choisit ce que l’on veut montrer, pas seulement par les mots, mais par les expressions, le style, l’attitude. On pilote sa présence visuelle comme on choisirait une photo de profil, mais dans un environnement interactif et en temps réel.
C’est une avancée technique indéniable. Mais c’est aussi un tournant anthropologique : celui d’une communication où l’image sociale est générée par algorithme, et non plus captée par une caméra. Cela interroge notre rapport à la vérité, à la spontanéité, à l’attention.
Entre innovation inclusive et standardisation émotionnelle
Pour certaines populations, cette fonctionnalité peut être un véritable levier d’accessibilité : personnes en situation de handicap, salariés en environnement non adapté à la vidéo, publics anxieux ou neurodivergents. Offrir une manière de participer visuellement sans caméra peut réduire des barrières importantes.
Mais pour d’autres, elle pourrait accentuer un phénomène plus problématique : celui de la standardisation émotionnelle, où tous les visages finissent par se ressembler, réagir de la même manière, avec le même sourire parfait et la même expression attentive calibrée. Si la diversité des expressions humaines s’efface derrière des avatars réglés, que devient la richesse des échanges ?
Ce que Zoom prépare, au fond, c’est une présence augmentée
Le double numérique de Zoom n’est ni un gadget ni un clone. Il est le symbole d’un glissement discret mais profond: celui d’un monde où la présence se négocie entre réalité et synthèse, entre vérité captée et image contrôlée. Dans ce monde, la caméra devient optionnelle, la visibilité paramétrable, et l’identité… programmable.
Reste à savoir si cette nouvelle forme de présence sera perçue comme un gain de liberté, ou comme une énième couche d’interface entre les êtres humains.
Pour aller plus loin
Dans le même esprit, retrouvez notre article :
Voxtral : la réponse open source de Mistral aux grands modèles vocaux
Une exploration des nouveaux modèles de génération vocale et de leur impact sur les interactions homme-machine, à l’heure où les voix et les visages deviennent aussi générés que les textes.
Références
1. Microsoft. (2023). Hybrid Work Trends 2023 Report.
https://www.microsoft.com/work-trends-index
2. Bailenson, J. (2021). Nonverbal overload: A theoretical argument for the causes of Zoom fatigue. Technology, Mind, and Behavior.
https://doi.org/10.1037/tmb0000030