Memoire Online - Quels sont les enjeux de l'audio orienté objet ?

Je tiens à remercier Monsieur Bergame Periaux qui m'a transmis sa passion pour le son multicanal et guidé vers cette thématique enrichissante et passionnante. Je le remercie également de m'avoir aider à mener à bien ce mémoire.

Je remercie mon entourage ainsi que tous ceux ayant participés au questionnaire avec beaucoup d'enthousiasmes.

Je remercie mon équipe, Lucas Benoist et Yann Douhou, ils ont contribué à la re-création sonore du court métrage Paperman, qui a servi pour les expérimentations.

Introduction

Les contenus audiovisuels foisonnent, les moyens de diffusions se diversifient et pourtant, il est difficile aujourd'hui d'adapter ces contenus selon les besoins sonores des auditeurs.

Bien que le contenu soit distribué pour de multiples utilisations, le projet reste peu malléable en fonction du contexte d'écoute. En réalité, seul le studio où a été réalisé le contenu restitue fidèlement les intentions artistiques, ce qui est problématique pour les créateurs tout comme le public.

La production cinématographique est en quête d'immersion, avec l'apparition de formats utilisant de plus en plus d'enceintes et de canaux. Seulement, les salles de cinéma ont elles aussi chacune leur configuration et installation. La localisation sonore se devant d'être cohérente à l'image, peut alors s'avérer complexe pour rendre le projet optimal en tout lieu.

Malgré cette quête d'immersion, l'événementiel continue de diffuser une image sonore stéréo plate, voire monophonique pour des concerts ou spectacles, dans le seul but que le son soit audible par le plus grand nombre.

Puis, avec notamment l`apparition du Dolby Atmos en 2012 survint le terme «objet audio» ou «audio orienté objet» dans la production sonore, termes assimilés à la dite «nouvelle génération audio» repensant la conception sonore d'aujourd'hui. Mais qu'est ce que la nouvelle génération audio? Quels sont les enjeux de l'Audio Orienté Objet ?

1. L'Orienté Objet, Qu'est-ce que c'est ?

1.1 Le Contexte

Afin de bien comprendre ces enjeux, il nous a semblé important de retracer quelques étapes importantes du son, jusqu'à nos utilisations et besoins actuels, avant d'appréhender le concept de l'Audio Orienté Objet.

En 1932, suite à l'invention de la stéréophonie par l'ingénieur Alan Blumlein un an auparavant, le brevet de Gance-Derbie sur la projection sonore à haut-parleur

multiple est déposé . La musique au cinéma est alors interprétée en direct, tandis que les dialogues et effets sont sur deux pistes optiques. L'enceinte dédiée avait comme avantage une bonne intelligibilité des dialogues, en plus d'une cohérence à l'image. Mais un technicien doit opérer manuellement la bascule afin d'avoir les dialogues à l'arrière de l'écran et les effets en surround.

«La tâche incombant à l'opérateur étant fastidieuse, les techniciens s'accordèrent sur le fait qu'il était tout à fait acceptable d'avoir conjointement, les dialogues et la musique d'orchestre, diffusés en un seul et même point derrière l'écran. Cette anecdote du début du cinéma parlant, entraine par son échec les prémisses du mixage

orienté canal , alors qu'il constitue sans le savoir les fondements du mixage orienté objet.» ³

Puis le film Disney «Fantasia» en 1940, marqua à son tour l'histoire du cinéma sonore, car ce fut le premier film commercialisé en son stéréo (et multicanal). Mécontent de la qualité sonore de l'époque, Walt Disney voulait créer un film plongeant le spectateur dans la scène sonore, comme étant à la place d'un chef d'orchestre, avec des sons se déplaçant à travers la scène.

1 «Histoire du son au cinéma» La semaine du son 2011, conférence SAE Institute Paris Alanblumlein.com

Les ingénieurs de Disney et de Bell Labs ont souhaité enregistrer l'orchestre de Philadelphie avec trente-trois microphones, et neuf enregistreurs. Avec ces nombreuses pistes, le mixage fut vite un problème pour rendre le tout réaliste et la diffusion fut impossible avec la contrainte du nombre de piste sur la bande. Les neuf pistes ont finalement été combinées en quatre; trois pour la voix, la musique, les effets spéciaux; et une quatrième pour le contrôle du volume des trois premières. Le son avait donc sa propre bande, séparé de l'image.

La diffusion a également été étudiée, basée sur trois enceintes à l'arrière de l'écran et deux sur les côtés, qui rediffusaient les signaux des enceintes droite et gauche. Les ingénieurs ont découvert que le fait d'éloigner des enceintes entre elles permettait le déplacement du son, sans que celui ci ne disparaisse entre les enceintes. Cet effet de déplacement dans la scène sonore ne pouvait pas se limiter à un contrôle de volume. Le potentiomètre panoramique a donc été créé, permettant le mouvement fluide du son d'une enceinte à une autre.

Le concept a donc été créé pour le film, et Fantasia reposait réciproquement sur l'aspect technique de diffusion, chaque salle devait donc être équipée, afin qu'il soit bien restitué. Les différentes installations en salle se sont révélées coûteuses et ont considérablement augmenté les coûts de production. La distribution sous le procédé Fantasound s'est alors réduite, et a entraîné l'échec commercial, malgré un concept innovant.

Après la découverte du son magnétique et de la projection Cinerama, le CinémaScope voit le jour en 1952, créé par la FOX, et connaîtra plusieurs normalisations de la SMPTE (Society of Motion Picture and Television Engineers). L'image s'agrandit grâce à l'anamorphose créé avec l'hypergonar (optique devant le projecteur) afin de concurrencer la télévision, le son se doit de rester cohérent.

Screenprism.com article «What was Fantasound and why was it created for fantasia»

«A Retrospective of the Groundbreaking sound system of Disney»a Kristina M Griffin Thesis

«Histoire du son au cinéma» La semaine du son 2011, conférence SAE Institute Paris

Quatre pistes magnétiques sont alors insérées (sur la même bande magnétique 35mm dédiée à l'image) avec trois canaux (gauche, centre, droite), et un canal d'ambiance. Le 70mm utilisera par la suite six canaux, cinq pour l'écran un pour l'ambiance.

Après le Dolby A très utilisé pour la réduction du bruit au cinéma dès 1966, la société confirme sa place en 1977 avec le Dolby Stéréo, permettant à l'aide d'un matriçage, d'obtenir quatre canaux avec seulement deux pistes optiques sur la bande. Les contraintes liées à la bande sont ainsi réduites, ce procédé remplaça les précédents, le magnétique étant plus simple, et moins coûteux.

La disposition des enceintes reste la même au fil du temps depuis le CinémaScope, normalisé en 1987 par la SMPTE sous la proposition de l'ingénieur Tomlinson Holman. Trois à cinq enceintes sont disposées à l'arrière de l'écran, quelques unes sur les côtés de la salle, et une dernière pour les basses fréquences (système 5.1 ou 7.1). Les enceintes L et R sont à 30° par rapport à l'enceinte centrale, et à 110° pour les enceintes surround Ls et Rs selon la norme ITU-R BS 775-1.

C'est également en 1987 que le Dolby Pro Logic, utilisant la technologie Dolby surround, est introduite sur le marché grand public. De part le home cinéma, la télévision continue de faire concurrence. Les supports se développent avec la VHS, le DVD, puis le Blu-Ray, et les technologies Cinéma des grandes entreprises Dolby et DTS sont de plus en plus disponibles (jeux vidéo, films, télé) ce qui élargit les utilisations du son multicanal et accroît la qualité. L'image évolue également dans les années 2000, avec l'arrivée de la HD qui bouleverse l'audiovisuel, la vente de télé écran plat augmente, Internet est démocratisé et les smartphones affluent. Le mode de consommation des contenus audiovisuel change.

«A Retrospective of the Groundbreaking sound system of Disney»a Kristina M Griffin Thesis «Histoire du son au cinéma» La semaine du son 2011, conférence SAE Institute Paris

«Le son multicanal, de la production à la diffusion du son 5.1, 3D et binaural» de Bergame Periaux, Jean-luc Ohl et Patrick Thévenot, Paris, Dunod: INA 2015, 1.1.2

Parallèlement, le cinéma remodèle sa chaîne de production progressivement et s'adapte au numérique. Le film, le son, les sous-titres, les données, sont encapsulés dans un conteneur appelé DCP (Digital Cinéma Package). Le DCP sécurisé est ensuite transmis aux exploitants de salles par internet, ou physiquement (disque dur). Après avoir chargé le film dans le projecteur numérique, l'opérateur intègre la KDM, une clé sous forme de fichier codé permettant la diffusion du film en un temps défini (appelé aussi Key Delivery Message). Après maturation, cette technologie permet une meilleure qualitée visuelle et sonore, plus stable et durable. Les problèmes liés à la pellicule comme la casse, les erreurs de montage des bobines, ou encore les limites d'inscriptions d'informations liées à la taille de la bande sont révolues. La projection numérique n'est toutefois pas dispensée de problèmes techniques comme la reconnaissance des clés. La gestion des KDM peut aussi devenir un véritable casse tête, avec les différentes versions d'un film nécessitant chacune une sécurité.

Suite au 5.1 standard, plusieurs propositions de normes ont vu le jour comme le 10.2 par Thomlinson Hollman dans les années 90 (Fondateur de THX), dans les années 2000 le 22.2 de Hamasaki (ex ingénieur de NHK) ou encore l'Auro 3D en 2006. Le format 7.1 sorti en 2010 par Dolby, est le premier résultat des recherches de la société sur un renouveau du format multicanal, voulant une progression sonore en lien avec les progrès visuels 3D et ainsi, relancer la vente des places de cinéma. Cette petite avancée marquée par la diffusion du film «Toy Story 3» de Pixar, symbolise surtout l'envie de révolutionner la spatialisation cinématographique. Mais Dolby atteint les limites du DCP avec un nombre de seize canaux maximum utilisables, autres versions comprises (langues,...), contrairement aux autres formats multicanaux utilisant des décodeurs et moteurs de rendu. La société Immsound proposera en 2012 une nouvelle approche, celle de l'audio Orienté Objet que nous étudierons, et qui donnera naissance par la suite au Dolby Atmos.

Mots clés: DCP, KDM, NHK 22.2, 10.2, THX, Auro 3D, Dolby 7.1, Immsound, Dolby Atmos

La pluralisation des normes, et des types de diffusion, sont au détriment du mixeur. Ces multiples supports suscitent plusieurs déclinaisons du format original, qu'opère le technicien, afin de correspondre aux mieux aux conditions dans lesquelles sera le spectateur. Le mixeur fait tout son possible afin de préserver les intentions sonores du film, tout en prenant en compte les contraintes (stockage DVD, norme de diffusion TV,...) qui obligent une certaine baisse de qualité du contenu. Pour la sortie d'un film, plusieurs exports doivent être ainsi effectués lors du mastering, selon le type de diffusion et du support. Avec le format original 5.1 PCM .WAV non compressé s'ajoute 4 :

- une version Dolby SR-D (Format numérique optique avec une compression AC-3, utilisé pour le stockage)

- une version Blu-Ray (5.1 ou 7.1 avec les deux codages standards Dolby True HD et DTS Master HD)

- une version diffusion TV (similaire au DVD avec un passage à 25 images par seconde)

- Et enfin, une version Stéréo pour le DVD, Blu-Ray, TV (par exemple, le Dolby Digital 2.0, le PCM Stéréo ou le MPEG-2).

Le downmix 5.1 vers stéréo est délicat, les conditions différentes du salon mènent à réfléchir sur l'adaptation de différents éléments techniques mais aussi artistiques d'un contenu. L'acoustique bruyante et réverbérante implique une diminution de la dynamique audio, or elle est un élément essentiel à la mise en scène du film. Les effets doivent être contrôlés, et leur diffusion vérifiée car à contrario d'utiliser le canal LFE seulement pour les FX en salle de projection, le home cinéma dédie le canal de basses à tout le bas du spectre (en dessous de 150Hz environ) afin de restituer les fréquences ne pouvant pas être diffusées par les petites enceintes.

4 «La chaîne du son au cinéma et à la télévision, de la prise de son à la post-production» de Lucien Balibar, Paris, Dunod: INA 2019, 6.4 p.287

Enfin, la réduction de l'espace sonore et la concentration des composantes du film (musique, ambiance, reverb, effet,...) compliquent le mix, les dialogues peuvent alors moins trouver leur place et affecter la compréhension des voix.

Ces points doivent recevoir une attention particulière, complexifient le mastering, et peuvent aussi conduire à une diminution de l'expérience à la maison. L'engouement des salles de cinéma est donc encore bien là, malgré la sévère concurrence de l'expérience cinématographique à la maison (VOD, SVOD, Télévision,...). Elles se différencient nettement avec les conditions techniques optimales et une expérience authentique impossible à reproduire à l'identique chez soi (ambiance de la salle, chronologie des médias, acoustique, taille de l'écran, qualité sonore,...).

La production audiovisuelle mondiale n'a jamais été aussi diversifiée et importante quantitativement qu'aujourd'hui.

Nous sommes en pleine guerre des plateformes de vidéo à la demande avec Amazon Prime, Disney+, AppleTV+, Hulu, HBO max, ou encore My Canal, qui concurrence le géant Netflix. A contrario d'obliger bon nombre de spectateurs à faire un choix sur leurs abonnements pour une question de prix; le nombre et la qualité des contenus augmentent, ainsi que le budget (plusieurs centaines de millions de dollars pour des séries) afin de séduire et fidéliser les clients des plateformes. Le leader à ce jour Netflix, dénombre environs 167 millions d'abonnés.

Le binaural désormais bien connu du monde de l'audio, est de plus en plus utilisé (podcasts, parcours sonores). Cette technique d'écoute plus naturelle joue avec les

fonctions de transfert de la tête (HRTF ) qui permettent la localisation du son. Elle donne plus de plans sonores (3D) que la simple stéréo (2D), et cela à la portée de tous, simplement avec un casque audio. Le succès des ventes de ce dernier ainsi que la forte utilisation de téléphone, tablette, et ordinateur, augmentent donc le nombre potentiel d'auditeurs.

5 Head-Related Transfer Function transformation de l'onde sonore par la tête et les oreilles, permettant la localisation d'un son (Données différentes pour chaque individu).

Avec un début timide, la Réalité Virtuelle (VR) se démocratise, et voit son champs d'action s'agrandir (Culture, Formation, Sciences, Cinéma,...) en plus du jeu vidéo. Afin d'avoir un univers immersif cohérent, la partie sonore se devait elle aussi immersive et interactive. La technique binaurale est alors la mieux adaptée pour ce nouveau contenu, pouvant s'adapter aux mouvements de tête de l'utilisateurs, captés à l'aide d'un Head Tracker.

Jusqu'à présent, chaque contenu est créé pour une diffusion particulière (cinéma, podcast, télé...) et se voit attribuer un format principal. Cela implique de réadapter le contenu pour chaque situation voulue, aussi nombreuses soient-elles. En définitive, cela prend du temps, et augmente le nombre de version pour un seul contenu, donc plus de stockage de données.

1.2 Le Concept

L'Audio Orienté Objet (OBA pour Object Based Audio, ou encore NGA Next Generation Audio), a l'ambition d'adapter un contenu audiovisuel, en fonction du spectateur et du contexte de diffusion. Cela est rendu possible en repensant la spatialisation. Au lieu, de dispatcher les sources sur différentes enceintes (principe multicanal classique), de spatialiser avec un potentiomètre de panoramique classique Äi (différence d'intensité) comme illustré sur la figure 1.1 et 1.2, le son est ici assigné à des metadatas, des données de position (azimut, élévation, distance) et de gain. Ces données sont stockées dans un fichier XML, qui seront lues en même temps que le fichier sonore.

Mots clés: Channel based, compatibilité, NGA, OBA, Scène Based, chaîne audio classique

Avec ces données de spatialisation bien plus précises, il peut intégrer également des informations techniques sur le format, le nom et type de son, ou encore les langues audio disponibles etc. Ces fichiers XML et audio, sont encapsulés dans un fichier BWF (Broadcast Wave Format). Le projet est alors universel et peut s'adapter aux formats cinéma (Dolby, DTS, NHK 22.2, Auro 3D) et à n'importe quelle situation ou se trouve le spectateur. Le temps consacré à d'adaptation du contenu est alors révolu. En plus de tout simplifier en un seul format, l'Orienté Objet permet d'obtenir un son interactif, personnalisé et plus d'accès à une immersion sonore. L'utilisateur pourra non seulement avoir accès simplement à différents formats audio en fonction de ses besoins (5.1 pour un home cinéma, binaural pour le casque, simple stéréo,...) mais aussi choisir ce qu'il veut entendre, étant donné que ce sont plusieurs matières sonores individuelles, qui sont lues en même temps. Il sera alors possible d'augmenter la voix d'un présentateur de sport ou ne garder que l'ambiance d'un stade. N'écouter que l'instrumental d'une musique pour un cover,...(figure 1.4)

«Le NGA est plus efficace en termes de débit binaire que les technologies précédentes, de sorte que ces nouvelles fonctionnalités ne se font pas au prix de débits binaires plus élevés. 6 »

20 professionnels de l'audio ont participé à un petit sondage réalisé lors d'un séminaire à Genève le 17 et 18 Mai 2017, présentant les avancées d'ORPHEUS sur l'audio basé sur objet, sur la question «Quelle fonctionnalité est la plus importante selon vous?» (sondage en annexe ). En première position arrive la compréhension des dialogues, en deuxième la sélection des formats (7.1, 5.1, binaural, stereo,...), en troisième la localisation. Vint ensuite le contrôle de la plage dynamique, la sélection des langues, et les metadata du programme.

En vu du contexte d'aujourd'hui, avec la forte croissance du podcast, de la vidéo à la demande, en recherche de nouvelles expériences audiovisuelles, accessibles simplement, l'Orienté Objet semble tomber à pic. Les applications et améliorations sont nombreuses.

L'Audio Definition Model (ITU-R BS.2076-2) est une norme de metadata pour l'audio Objet, élaboré et standardisé en juin 2017 par l'Union Européenne de Radio Télévision (UER EBU), avec le soutien de la BBC, France TV, Radio France et Fraunhofer. Ce standard européen ouvert et gratuit, est le plus avancé sur les metadatas de l'audio nouvel génération (NGA), (Document de la norme disponible en annexe A).

Affiliant des données XML à l'audio, l'ADM différencie les éléments du paysage sonore afin de définir un fichier audio comme étant «Channel Based», «Scene Based», «Object Based» Audio.

Mots clés: OBA/NGA, BWF, XML, Universel, Simplification, Spatialisation Personnalisation,ADM, libre

1.3.1 Audio «Orienté canal» (Channel Based)

La première solution pour spatialiser de l'audio est de l'assigner à une enceinte, située à un point précis. Le nombre de canaux audio correspondent alors au nombre d'enceintes du système d'écoute prévu (stéréo, 5.1, 7.1,...). Cette méthode fonctionne à condition de respecter les normes de diffusion prévues pour le contenu. Si les enceintes sont positionnées différemment de la norme de mixage, les informations de spatialisation seront altérées, moins réalistes donc moins immersives. Le média devra en temps normal être ré-adapté pour être compatible sur un autre système de diffusion (downmix 5.1 vers stereo par exemple). En assignant de l'audio comme étant «channel based», il sera considéré comme objet fixe, et se verra appliqué ses données de positions, pour pouvoir être compatible sans modification supplémentaire.

Pour une captation d'ambiance en quadriphonie, on la définira en post-production comme étant «channel based». Chaque canal individuel aura alors son code et ses informations précises. Le canal gauche L aura la donnée d'azimut -30°, droite R +30°, arrière gauche LS -110°, et arrière droite LR +110°. ⁷

1.3.2 Audio «Orienté Scène» (Scene Based)

L'audio Orienté Scène est une autre approche de l'ambiance spatialisée. Elle fait directement référence à l'Ambisonique, qui est une méthode de captation 3D à un point précis de la scène sonore. Elle s'appuie sur la superposition de plusieurs microphones, et des harmoniques sphériques.

L'ordre correspond au nombre de capteurs utilisés par le système, plus l'ordre est élevé, plus la restitution spatiale est précise. Le FOA (first Order Ambisonic, ordre 1) a trois directivités et utilisera quatres pistes. Le plus utilisé est l'ordre 3 (TOA), pour sa bonne restitution spatiale et spectrale (restitution des signaux HOA sur des Haut-Parleurs en annexe figure A2).

Mots clés: Channel based, compatibilité, Scene based, Ambisonique, ordres, captation, encodage, 3D, 7 Ces coordonnées sphériques pourront être retranscrites en coordonnées cartésiennes si besoin pour d'autres lecteurs.

En plus de contenir beaucoup plus de pistes (au-delà de seize) les ordres supérieurs au TOA peuvent contenir des défauts spectraux et de corrélation de phases, car ils utilisent plus de microphones. Différentes marques proposent des micros ambisonic comme SoundField (racheté par RODE), ou Sennheiser avec l'AMBEO.

Une fois la captation réalisée (format A), il faut dématricer le signal (format B), une manipulation des cosinus, sinus, mixage est effectué afin d'obtenir les données X,Y, Z, etc. L' Ambisonique est également très utilisée comme encodeur et décodeur, pour du binaural de synthèse par exemple, nécessitant une spatialisation 3D précise.

1.3.3 Audio «Orienté Objet» (Object Based)

Un objet désigne un son seul, ayant une position sous forme d'azimut et d'élévation, connaissant une variante temporelle, qui se déplace dans la scène sonore. Ils peuvent être plusieurs à constituer une scène. Étant un format indépendant du système d'écoute, l'ambisonique peut être exporté en object based. Chaque objet possède son canal de mixage et ses métadonnées. En plus des données de position, des paramètres sur la taille de l'objet donnant un son plus ou moins directif sont possible. Le moteur de rendu recevra alors l'info d'envoyer le son à l'enceinte la plus proche ou à un ensemble d'enceintes. Le paramètre «Object Divergence» allant de 0 à 1 permet la création d'objet fantôme, à 45° (si l'on utilise les coordonnées sphérique) à gauche et à droite de l'objet d'origine. C'est le même principe que le potentiomètre «center%» dans le pan 5.1 de Pro Tools.

Chaque audio décrit comporte un identifiant, un code avec des informations sur son format, la localisation du fichier, la langue associée, ou encore la durée du programme, pouvant proposer le même contenu avec plusieurs longueurs selon le temps dont dispose l'auditeur. (Les métadonnées sur la diégèse du son pour du contenu VR ne sont pas spécifiées par l'ADM).

AES Convention Paper «Méthode d'enregistrement en Audio Orienté Objet» le 7 Juin 2016, Paris. Audio Definition Model Recommandation ITU-R BS.2076-2 (10/2019)

L'audio Object Interaction définit les limites de l'interaction accordé à l'auditeur. Si le programme à l'indicateur 1, il accorde une certaine liberté de modification sur le gain ou la localisation des sons.

Si l'interaction sur le gain est autorisée, le sous élément «Audio Object Interaction» donne une intervalle limite ou une liberté totale. L'auditeur pourra si il le souhaite, n'entendre que l'ambiance du match par exemple.

Si l'interaction sur la position est autorisée, le sous élément «Audio Object Interaction» donne une intervalle limite sur l'azimut, l'élévation et la distance (données Sphériques ou Cartésiennes).

1.4.1 Les Fonctions d'adaptations de l'ADM

Une fois l'audio référencé, plusieurs paramètres entrent également en compte. La «Zone d'exclusion» définit les différentes limites de l'espace 3D (avec des données cartésiennes X,Y,Z) afin de masquer dynamiquement les points de sources à ne pas utiliser pendant la lecture. Les données nommées «Audio Programme Reference Screen», elles, indiquent les références de l'écran utilisé par le créateur de contenu. Ces coordonnées (Polaire ou cartésiennes) peuvent influer sur la spatialisation, et permettent l'adaptabilité spatiale du projet. Si par exemple le contenu contient l'indicateur «ScreenRef Flag», informant que l'audio Orienté Scène (Scene Based) est lié à la taille de l'écran, le moteur de rendu adaptera la scène au système de la salle recevant le contenu.

Pour ce qui est de l'adaptation d'un contenu en Binaural, la fonction «Head Locked» (illustrée en Annexe 3 Figure A9) définie si un objet doit bouger en fonction des mouvements de tête (ambiance par exemple), ou ne pas en prendre compte (voix off par exemple). Le contenu pourra être binauralisé par le moteur de rendu, donnant à l'auditeur le choix du ratio champs direct/champs réverbéré de l'acoustique virtualisé, et pourquoi pas des HRTF. La mesure du Loudness est effectuée avec la norme recommandée ITU-R BS.1770 fonctionnant pour les formats mono, stéréo, et multicanaux.(cf Annexe figures A3 et A4)

Mots clés: Interaction, Audio Programme Reference Screen, ITU-R BS.1770, Matrice, Binaural

La norme EBU R128 est quant à elle utilisée pour le «Loudness Rec Type, afin d'indiquer quelle pratique a été suivie dans la correction du Loudness»; et enfin le «Loudness Correction Type» comment l'audio a été corrélé (temps réel ou hors ligne).

Une matrice divisée en trois segments interconnectés (partie encodage, décodage et direct) effectuera les downmix/upmix, en se servant de la base de données et des identifiants de chaque piste. Des valeurs de gain et de déphasage peuvent être constantes ou variables pour permettre au moteur de rendu d'ajuster ces valeurs, possiblement avec une autre source de métadonnées. Des sous-éléments sont également disponibles pour choisir la définition de la conversion. Une fois que le contenu est au format ADM, tout l'audio est encapsulé dans un fichier BWF (Broadcast Wave Format), un simple fichier WAV contenant nos metadata XML.

1.4.2 Application de l'ADM

Orpheus est un projet faisant parti du programme «Horizon 2020» de la commission européenne, apportant 80 Milliards d'euros de financement dans la recherche et l'innovation en 7 ans. Le projet a été lancé le 1er Décembre 2015 et s'est achevé le 31 Mai 2018, il a été le premier à créer une chaîne multimédia de A à Z avec de l'audio Orienté Objet (annexe figure B2). Dix partenaires participeront à son élaboration dont Fraunhofer institute, la BBC, l'IRT, Magix (DAW Sequoia), Elephant Candy (pour la création d'une application ios), et aussi les français Trinnov, B-com, et l'IRCAM,...

l'Institut de Recherche et Coordination Acoustique/Musique, à créé le logiciel ADMix permettant de rendre un projet au format objet sous la norme ADM, mais aussi de le lire et d'extraire les données XML. D'autres DAW sont compatibles ADM tels que Pyramix ou Nuendo. La norme ADM vise à unifier les autres formats utilisant aussi le principe objet (Dolby, DTS, Fraunhofer,...), en misant sur la liberté, la transparence et la gratuité. Correspond t-elle à toutes les applications utilisées? Comment ces différents outils et formats objets communiquent-ils entre eux? C'est ce que nous essayerons de voir dans le chapitre 3 de ce mémoire.

1.4.3 La Question de la Réverbération

Le plus délicat dans la recherche de l'OBA, c'est la réverbération, qui n'est pas évoquée par la norme ADM. Ce phénomène acoustique généré par de multiples réflexions d'ondes sonore propre à un lieu, donnant une couleur et une nouvelle dimension au son direct, est indispensable pour le réalisme d'un contenu. Elle pourrait également offrir à l'auditeur une customisation de pièces, pour une immersion d'un contenu dans une salle de spectacle par exemple. Seulement, cet effet est complexe à référencer en objet, tout en gardant la qualité. Il est effectivement impensable d'utiliser un objet pour chaque réflexion acoustique.

Certains membres de l'équipe ORPHEUS, Markus Noisternig et Olivier Warusfel de l'IRCAM, ont alors proposé une réflexion sur les techniques de réverbérations pour l'audio objet. Il existe deux approches afin d'intégrer la reverb à l'ADM.

La première est de convertir les paramètres de la reverb en metadata, ce qui impliquerait l'intégration d'un programme de reverb dans le moteur de rendu.

La deuxième est l'approche «basé signal», étudiée par ORPHEUS et S3A Audio, qui utilise le principe Orienté Scène ou Canal. Dans cette approche, plusieurs méthodes sont possible (illustrées en Annexe A1):

- Avoir deux pistes pour le son direct et la première réflexion, puis les autres réflexions (plusieurs pistes)

- Avoir trois pistes pour le son direct, la première et deuxième réflexion, puis les autres réflexions (plusieurs pistes)

Le moteur de rendu interprètera donc les metadata des différents canaux avec des informations de gain et de spatialisation. A défaut de demander plus de pistes contenant les premières réflexions, cette technique donne d'avantages de contrôle sur la localisation des sources.

Mots clés: Orpheus, Scene based, Taille de l'écran, Adaptabilité, , Reverb,

AES «Réverbération Techniques for object based audio» séminaire Orpheus à Genève, Mai 2017

Les difficultés sont aussi du point de vue de la différenciation entre le son direct et les première réflexions, ou encore l'intégration de la reverb pour les programmes à multi-languages. L'approfondissement et l'étude d'une extension se profilent donc pour le format ADM, afin de répondre à toutes ces questions.

Comme dit précédemment, l'audio objet est un son accompagné de métadonnées qui le décrit (position, gain,...), ils seront lus en même temps lors de la restitution. L'ADM est d'ailleurs une proposition de norme décrivant ces métadonnées, présent de la production à la diffusion. Plusieurs solutions utilisent ce principe: le Dolby Atmos, le MDA de DTS, le MPEG-H de Fraunhofer, et enfin la technique WFS, nous les étudierons dans le chapitre 2.

Le 10.2 (de Tomlinson Holman, créateur de THX) l'auro 3D et le 22.2 de NHK sont quant à eux des normes de diffusion, surtout présents dans les salles de cinéma. Ils font référence à une diffusion multicanal, ou chaque son est assimilé à une ou plusieurs enceintes, et non à des métadonnées. Cela n'empêchera pas pour autant l'utilisation de ces systèmes de diffusion avec un contenu objet, capable de s'adapter.

Le binaural est aussi une méthode très intéressante, surtout sur le point de la diffusion pour l'audio objet. Cette technique utilise les données HRTF afin de rendre l'écoute d'un contenu plus naturelle, avec une localisation à trois dimensions, comme dans la vie de tous les jours. Le son 3D serait alors à portée de tous, nécessitant simplement un casque. Le moteur de rendu délivrant le contenu quelconque pourra restituer, après sélection de l'auditeur, le son 3D avec les informations de la matrice et les paramètres de binauralisation de l'audio instauré. Le binaural peut également servir à simuler l'écoute en auditorium ou d'une salle de cinéma pour le mixage d'un film. Cette pratique faisait partie du projet de recherche BILI (BInaural LIstening), lancé en Janvier 2013, en partenariat avec l'IRCAM, France Télévision, Radio France et Trinnov entre autre.

Mots clés:ADM, métadonnées, Dolby ATMOS, DTS MDA, MPEG-H Fraunhofer, WFS Sources: Bili-project.org

2. Quelles sont les applications du format Objet ?

Après avoir présenté le principe de l'audio objet, cette deuxième partie vise à découvrir les applications de l'OBA, ainsi que les formats utilisés dans différents domaines (Sonorisation, Cinéma, Broadcast, VR, Musique).

2.1 La Sonorisation

Le but de la sonorisation a longtemps été de diffuser le son aussi bien que possible, afin que les spectateurs puissent entendre ce qu'il se passe sur scène. Ceci n'était pas le cas lors de la tournée américaine des Beatles en 1964, puisque seul les ampli de guitares servaient d'enceintes de façades, et n'étaient guère efficaces face aux cris hystériques de la foule. Ce n'était pas non plus le cas en 1969 lors du mythique festival de Woodstock, qui diffusait 12 000 W de son pour 500 000 personnes, puissance aujourd'hui utilisée pour une salle de 500 personnes. Les progrès étaient alors dirigés sur la puissance, la consommation, le volume/poids, la réponse en fréquence, la longue portée avec le line source, ou encore l'audio numérique.

Dans un événement aujourd'hui, on retrouve souvent deux points de sources principales sur chaque côté de la scène, (parfois trois avec une source centrale, voire quatres points sur certains grands festivals) afin de couvrir toute la zone où se trouve le public. L'écoute y est souvent monophonique, à moins de se trouver dans le «Sweet Spot», petite zone ou l'on peut percevoir de la stéréophonie. Cette zone est située dans l'axe central de la scène, car le son provenant des deux sources arrivent à nos oreilles, avec la même intensité, sans décalage temporel, ni détimbrage causé par la directivité de l'enceinte. Mais dans la majorité des cas, le spectateur écoute le son provenant d'une seule enceinte, en plus ne correspondant pas à l'image sonore réelle de la scène, car la localisation sonore est contradictoire avec ce qu'il voit, comme l'illustre la figure 2.1.

Mots clés: Sonorisation, WFS, IRCAM, Sonic Emotion, Euphonia, Huygens, Sources: Orpheus-audio.eu

Avec une localisation imprécise, le mix est bien plus compliqué à construire, à rendre tous les instruments cohérents dans un espace spatial et spectral plus restreint.

2.1.1 WFS

La WFS (Wave Field Synthesis) est issue des recherches notamment de l'IRCAM, de l'université de Delft au Pays Bas, et des sociétés comme Sonic Emotion ou encore Euphonia. La synthèse du front d'onde (WFS) est une technique de restitution multipliant le nombre de point de diffusion sur le même plan horizontal. L'ensemble des enceintes est excité en même temps(figure 2.2), générant un front d'onde (type plane) selon le principe d'Huygens, s'inspirant des ondes à la surface de l'eau ⁸ .

8 «Le son multicanal, de la production à la diffusion du son 5.1, 3D et binaural» de Bergame Periaux, Jean-luc Ohl et Patrick Thévenot, Paris, Dunod: INA 2015, p.104.

Des microphones placés en ligne, ayant le même espacement que les diffuseurs ponctuels (amplifiés individuellement), donnent une représentation conforme de la scène. Le procédé étend le Sweet Spot stéréo ainsi que le champs sonore à presque l'ensemble du public, offrant une écoute beaucoup plus naturelle et réaliste qu'un système de sonorisation classique (cf zone verte représenté sur la figure 2.4). Le spectateur peut alors se déplacer ou se positionner à n'importe quel endroit, tout en gardant une localisation cohérente de chaque source. Par conséquent, une localisation améliorée permet une meilleure précision spectrale des sources, un mix plus clair et plus de liberté créative.

Les angles de diffusion des ondes planes sont contrôlés avec des delay. De multiples configurations d'enceintes sont possibles, comme élargir le champ sonore avec des sources supplémentaires aux extrémités («extension»), mais aussi diffuser du son en 360° ou en 3D afin d'immerger le public dans le son (cf figure 2.4). En plus d'une diffusion innovante, on retrouve le principe objet avec les données de position (Pan, Width, Distance, Elevation) pour chaque source réelle ou virtuelle, décuplant les possibilités artistiques. Le mix d'un format (stéréo, 5.1, 7.1,...) peut aussi être facilement adapté au système utilisé. Mais de nouveaux besoins surgissent, car l'événementiel peut contenir plusieurs contraintes comme l'acoustique du lieu, les positions d'enceintes imparfaites, le show control,...

Un processeur spécial WFS comme le Wave1 de Sonic Emotion, vient alors s'insérer dans la chaîne du son, entre la table de mixage (ou DAW) et l'amplification. Il reçoit par le biais d'une transmission audionumérique, chaque canal individuel de la console correspondant à un objet. Parallèlement, les metadatas de positions de chaque piste sont transférées au Wave1. Le tout est calculé par le processeur, puis le signal audio traité est envoyé aux enceintes. Le Wave1 est contrôlable en temps réel, afin d'indiquer les informations concernant les objets sur le logiciel WavePerformer, à l'aide de plugins, d'interfaces et de trackers. Avec ce dernier, la localisation du son diffusé pourra suivre automatiquement la position de la source d'origine.

Le géant Français de la sonorisation L-Acoustics, est récemment entré dans le marché de la WFS avec son système L-ISA. Son processeur peut intégrer 96 entrées audio (correspondant aux objets) et 64 sorties hauts parleurs avec le protocole MADI. Une sortie AES/EBU est disponible pour transmettre un downmix stéréo de secours généré automatiquement, et un cable RJ-45 permet la liaison remote en DHCP entre le L-ISA Processor et le software L-ISA Controller (Cf figure 2.5).

Le logiciel supervise les objets et groupes d'objets, les presets de scène, ainsi que les contrôles externes possible avec le plugin LA (compatible Protools, Nuendo, Reaper, Ableton Live), les tables de mixages (plugin compatible Yamaha, Avid, et Digico), des trackers, ou encore des interfaces OSC. Le logiciel intègre également des outils de traitements pour corriger le son suivant l'acoustique du lieu.

Le système de L-Acoustics est déjà bien présent dans le monde, pour des concerts symphoniques («Harry Potter et le prisonnier d'Azkaban» en Australie, concerts d'Ennio Morricone), des tournées (Christine and the Queen, Gambino enfantin), des festivals (Tomorrowland, The Lab Panorama) ou le Parc à Thème Français le «Puy du Fou» aux Epesses.

Ce dernier fut la première implémentation du système dans le monde, cela pour le spectacle «Le Dernier Panache», demandant une configuration sonore particulière. Doté d'une tribune tournante qui s'axe sur plusieurs décors, le son de diffusion devait suivre la rotation de la tribune. Ceci fut possible avec l'utilisation d'objets audio et des capteurs, permettant de diffuser au bon moment sur les bonnes enceintes (placées en couronne) le son du spectacle, tout en prenant en compte les mouvements (plus ou moins lent) de la tribune.

La technique de diffusion WFS est innovante, et résout bon nombre de problèmes existants, sans complexifier l'utilisation, mais elle doit encore se démocratiser.

Les prestataires doivent se procurer le matériel nécessaire, afin de proposer ce service aux organisateurs. L'emplacement, l'installation et le câblage des enceintes doivent aussi être repensés et organisés avec les techniciens de scène pour les événements occasionnels. Les salles doivent s'équiper et apporter un service adapté aux besoins des groupes qu'ils accueillent. Enfin les techniciens et créateurs doivent assimiler les outils, afin d'utiliser cette technique au service des événements. Tout cela prend du temps, mais finira, certainement et on l'espère, par convaincre les professionnels du spectacle, et les spectateurs.

2.2 Le Cinéma

2.2.1 Le Dolby Atmos

Le Dolby Atmos est sans doute le procédé orienté objet le plus connu, car véritable atout marketing pour les salles de cinéma, allant jusqu'à faire une démonstration du système avant le lancement d'un film. Il est associé à la technologie Dolby Vision (pour l'image) pour les salles Dolby Cinema, souvent proposé sans majoration de tarif, comparé aux places en salles standard. Parmis 5000 salles équipées (ou en cours d'installation) dans plus de 90 pays dans le monde, la France peut être considérée comme très bien équipée, comptant à ce jour plus de 130 salles dans l'hexagone (Pathé/Gaumont, CGR, Cinévilles,...). Le film Pixar «Rebelle», fait le premier pas vers la technologie Atmos, ils sont aujourd'hui plus de 1500 («Gravity» d'Alfonso Cuarón, «Mad Max: Fury Road» de George Miller, «Ready Player One» de Steven Spielberg, mais aussi des séries avec la saison 2 de «Game of Thrones» de Weiss & Benioff, qui est 1ère série Atmos (après remixage), et «Sherlock» de Steven Moffat & Mark Gatiss, première à intégrer le format nativement).

Mots clés: Atmos, Dolby Cinéma, 7.1 , Immsound, Rétrocompatible, beds, object

L'envie d'un renouveau multicanal (création du Dolby surround 7.1), et le rachat en 2012 de la firme Imm Sound (créer en 2010) avec ses recherches conduiront à la naissance du Dolby Atmos la même année. Les travaux de la société espagnole étaient dirigés sur la gestion de l'audio, des metadatas et du DCP, jusqu'à la diffusion en trois couronnes (23.1 ou 14.1). Sur la couche supérieure, trois enceintes frontales et cinq au plafond; sur la couche intermédiaire trois enceintes LCR, six canaux pour dix enceintes latérales et deux canaux pour six enceintes à l'arrière. Pour la dernière couche inférieure, trois enceintes frontales avec deux sub pour le canal LFE ⁹ .

Dolby se sert donc de cette base de recherche et instaure son format de diffusion, en prenant en compte les aménagements de chaque salle. Le nombre de haut-parleur peut ainsi varier selon la configuration existante. Derrière l'écran, on retrouve trois enceintes LCR, et une enceinte supplémentaire de chaque côté du canal centre (Lc et Rc), conseillées pour des écrans de plus de 12 mètres, pour une localisation sonore plus cohérente et fluide (cf carrés verts sur la figure 2.6). Tous ces hauts parleurs sont dirigés vers un point de référence. Le caisson de basse lui, est positionné de façon asymétrique par rapport au centre de la salle afin d'éviter les ondes stationnaires.

L' Atmos est totalement rétrocompatible avec le 7.1 / 5.1, notamment en conservant la position des canaux existants, et en optimisant l'intégration de nouveaux. 64 Enceintes au total peuvent être gérer par le processeur. Les nouvelles se situent au plafond et sur les côtés entre les enceintes de façades (écran) et surround, la couverture sonore dans la salle est alors élargie (cf carrés bleus sur la figure 2.6). Une nouvelle dimension, celle de la hauteur et l'élévation est possible avec précision. Au lieu de reproduire un son sur plusieurs enceintes, ici le son peut être lu uniquement sur un haut parleur, augmentant considérablement la localisation, la cohérence à l'image et la liberté créatrice.

Mots clés: Atmos, Dolby Cinéma, 7.1 , Immsound, Rétrocompatible, beds, object

9 «Le son multicanal, de la production à la diffusion du son 5.1, 3D et binaural» de Bergame Periaux, Jean-luc Ohl et Patrick Thévenot, Paris, Dunod: INA 2015, p.40.

Contrairement à l'ADM, l'Atmos distingue seulement deux types de sons dans un contenu, le «bed» et les «objets» pour une meilleure compatibilité dans les salles. Le «bed» (souvent en 7.1), est le «décor» du paysage sonore, et contient les sons ayant une localisation fixe assignée à un canal (ambiances, musique, similaire à l'orienté canal ou au multicanal traditionnel), contrairement aux «objets» pouvant être en mouvement. Ils peuvent aussi être statiques et représenter une position précise dans l'environnement. Le procédé peut utiliser jusqu'à 128 canaux. Le processeur se chargera d'interpréter les objets / bed, et de transmettre le signal vers les enceintes, (cela bien plus fidèlement que le principe multicanal) en faisant une concordance avec les coordonnées de la salle.

Mots clés: Atmos, Dolby Cinéma, 7.1 , Immsound, Rétrocompatible, beds, object

Les fichiers audio et métadonnées Dolby Atmos sont livrés avec les fichiers traditionnels 5.1 et 7.1 dans un seul et unique DCP pour toutes les salles équipées ou non, éliminant les besoins de plusieurs fichiers selon les versions.

Dans la salle Atmos, les fichiers appropriés seront décodés par le processeur (ou RMU Server), et pourront à tout moment basculer au format inférieur si nécessaire, et cela sans interruption durant la projection. Un outil de monitoring («Dolby Atmos Monitor Tool») est fourni, ainsi que l'outils «Dolby Atmos Designer Tool» permettant la calibration de la salle.

2.2.2 MDA DTS:X

2012 est décidément une année charnière pour le son orienté objet. DTS, le concurrent direct de Dolby, fait l'acquisition de SRS Labs, entreprise de processing audio contenant cent cinquante brevets. Parmis eux, le MDA (Multi Dimensional Audio), un format audio PCM non-compressé Orienté Objet, (.mda incluant les métadonnées propres au format) compatible DCP, destiné aux professionnels. La firme mise alors sur la gratuité de licence pour les productions, et la liberté du format, avec certaines spécifications libres de droits et pris en charge par un SDK (Software Development Kit) facilitant son évolution. Il a également été standardisé par l'ESTI, SMPTE et l'ITU.

Mots clés: Atmos, Dolby Cinéma, 7.1 , Immsound, Rétrocompatible, beds, object Sources: Dolby.com et Dolby Atmos White Paper ; MDA White Paper; dts.com

En 2015, le MDA devient DTS: X pour l'exploitation dans les salles de cinéma et les produits grand public.

Coté production, à ce jour, plus de cent films ont été mixés en DTS:X comme «Midway», «Ford v Ferrari», ou «Sonic Hedgehog». Après une implémentation de 14000 salles DTS dans le monde en 1998 (contre 15000 salles Dolby Digital), le déploiement DTS:X semble plus timide, environs 1000 installations, majoritairement en Amérique du Nord (AMC Theatre, Cinépolis, Cinémex, Epic Cinémas, UEC...). Un récent accord avec CJ 4DPLEX prévoit une intégration dans les salles ScreenX dotées d'un écran 270°.

Le principe reste similaire au concurrent, quatres configurations type (basées sur le 7.1) sont proposées selon la taille des salles, tout en prenant en compte les conditions de celles-ci, sans y percevoir un nombre idéal d'enceintes (figure 2.9). Le format est compatible avec les configurations Dolby Atmos, 22.2, Auro 3D,...

Bien que l'on retrouve les mêmes arguments que Dolby, soit une meilleure restitution, une fidélité créatrice dans toutes situations, le DTS:X MDA reste moins fermé que son rival, avec une installation ne nécessitant aucun matériel propriétaire, rendant l'adaptation d'une salle plus efficace.

«L'Approche Orienté Objet» mémoire de Florent Denizot, école Louis Lumière, 2016. p.40

Concernant la création, DTS met à disposition une suite d'outils sous forme de plug-ins AAX Protools ou logiciels stand alone fonctionnant sur macOS. Parmis ces outils, le MDA Creator permettant de placer un nombre illimité d'objets dans l'espace, un encodeur, et un lecteur. Un auditorium certifié ATMOS est totalement compatible pour fonctionner avec le MDA. Ces auditoriums Dolby Atmos en France sont aussi équipés et certifiés DTS:X ¹⁰ .

2.2.3 WFS

La WFS nous l'avons vu, est surtout connu de l'événementiel, mais des salles de cinéma utilisent aussi pour certaines d'entre elles ce système, s'éloignant ainsi de la course aux formats. Reposant sur la multiplication des diffuseurs et sur l'audio objet, la salle de cinéma pourrait alors contenir avec cette technique un nombre suffisant d'enceintes, donnant une grande précision spatiale, et ainsi, être capable de recevoir tous types de formats. La salle et le processeur s'adapteraient, sans altérer le contenu.

Avec ces avantages sur le papier, la WFS aurait pu influencer l'installation des salles de cinéma, et pourtant le Dolby Atmos semble dominer le marché du cinéma Orienté Objet. Les inconvénients semblent principalement être au niveau du coût de l'installation et la de la complexité d'adaptation, dus à un nombre important d'enceintes. Dolby offre le nécessaire sur toute la chaîne de production cinématographique (du mix à la diffusion, normé, avec des outils hardware et software), avec un large panel de films produits dans ce format. Le choix d'équiper une salle en Atmos semble alors être préférable, et à moindre risque du point de vue technique pour les exploitants de salles.

«Utilisation de la technologie WFS dans la création sonore cinématographique: Possibilités et limites»

mémoire de Rémi Carreau et Thibault Macquart, école ENS Louis-Lumière, 2015.

2.3 Le Broadcast et les Supports grand public 2.3.1 MPEG-H

Le MPEG-H est un format audio objet ouvert, élaboré par Fraunhofer pouvant être lu sur n'importe quel enceinte ou casque. Il a été testé et utilisé dans le monde entier par TV Globo (télé Brésilienne), NHK (télé Japonaise), CCTV (Télé Chinoise), l'Eurovision (2018 et 2019), pour la coupe du monde de foot 2018 ou encore France TV pour Roland Garros; et est d'ores et déjà actif pour la télé 4K Sud Coréenne.

Le MPEG-H a été conçu pour pouvoir être transmis par un simple câble SDI sans perte de qualité, ce qui le limite pour l'instant à 16 canaux audio dont un canal dédié aux metadata, ici appelé «Control Track» (aussi en flux PCM), évitant la perte des métadonnées. Le nombre d'objets est alors limité, donc la liberté d'adaptation et de personnalisation est plus réduite.

Conformer le contenu pour les salles de cinéma nécessite un grand nombre d'objets (donc de piste), cela semble alors compliqué pour le MPEG-H. Mais ce format est très intéressant pour la télé, la VR, la musique en streaming, les podcasts, la diffusion live ou tout autre contenu à consommer à la maison. Les promesses de la NGA offrant une meilleure expérience avec un son immersif (adaptabilité selon le type diffusion disponible) ainsi que l'interactivité sont maintenus, tout en préservant un aspect essentiel pour l'utilisateur, la simplicité. L'interface et les options sont épurés, puis des solutions existent afin de proposer une expérience évolué avec une installation réduite. Le son 3D interactif est alors plus que jamais accessible.

Mots clés: Fraunhofer, AAC, Objets, 15 Pistes, Simplicité, MHAPI, Sources: Orpheus-audio.eu

aesfrance.info «Object Based audio comment et pourquoi?» Webinar MPEG-H Fraunhofer du 23 Avril au 12 Mai

L' AAC, également l'une des innovations de Fraunhofer, est réutilisée (entreprise que l'on connaît bien avec le projet Orpheus). Le débit s'apparente à 128 kbps pour un mix 5.1 et 64 kbps pour du stéréo (données techniques à différencier de la qualité subjective). Comme montré ci-dessous, l'étape d'authoring vient s'ajouter à la chaîne de production avec le format MPEG-H.

L'authoring est l'étape permettant de conformer le contenu en objet, de définir l'interactivité, les presets, mesurer le loudness, effectuer l'export,...

Le format repose sur la méthode «bed+object» (comme le dolby atmos) qui sépare la scène sonore en deux types de son. Les «bed» représentent la base du contenu audio, c'est à dire les ambiances, les musiques, qui sont affiliées à une position précise et fixe (multicanal, 5.1, 7.1, 22.2, quad,...). Puis les objets représentent le reste de la scène sonore, donc les effets spéciaux, les voix par exemple, dont la position est variable (ou peut être changé par l'utilisateur).

Webinar Fraunhofer «Hands on post-production for MPEG-H audio» le 27 Avril 2020

Ensuite les «Switch Group» servent à proposer un choix unique et non multiple à l'auditeur, en groupant un certain nombre d'objets ou scènes. Par exemple, le switch group sera nécessaire pour le choix des langues du contenu, pour ne pas choisir le français en même temps que l'anglais (figure 2.11).

A partir de la différenciation des sons, il est possible de définir des presets, que l'utilisateur pourra sélectionner rapidement et simplement, selon ses besoins (figure 1.4). Trois presets sont recommandés (mais d'autres sont possibles avec des paramètres aux choix de l'ingénieur son, du réalisateur,...).

Le premier est nommé «Default», comme son nom l'indique, ce sont les paramètres audio du contenu d'origine proposés par le mixeur son.

Le second est nommé «Dialogue+». Si ce preset est sélectionné, la voix, les dialogues, sont automatiquement augmentés de 6 dB.

Le troisième se nomme «Commentary OFF», il est donc dépourvu de voix, et seulement constitué des effets, de la musique, de l'ambiance,... (figure 2.11)

Webinar Fraunhofer «Hands on post-production for MPEG-H audio» le 27 Avril 2020

Notons que sur chaque preset, l'utilisateur peut changer par lui même le volume, l'azimut et l'élévation du son dans les limites qui lui sont accordées. Ces nouvelles valeurs seront sauvegardées pour une prochaine utilisation. Ainsi, les principales fonctions du NGA importantes aux yeux des utilisateurs (la compréhension des

dialogues, le choix du format et la localisation) sont respectées, tout en restant simple et accessible pour tout utilisateur.

«Dialogue Enhancements», une ancienne étude de 2011 menée par Fraunhofer sur les réglages audio choisis par les utilisateurs est très intéressante. L'ancêtre du MPEG-H, le MPEG4 AAC était utilisé lors d'un match de tennis de Wimbledon. Un curseur de mixage allant de la valeur «3» à «-3» est proposé aux auditeurs. La valeur «zéro» correspond mixage par défaut de l'ingénieur son, les valeurs positives privilégient les commentaires, tandis que les valeurs négatives les atténuent et donnent une priorité à l'ambiance du stade. Deux types de réglages se distinguent dans les résultats, 25% ont préféré le réglage «-1» (moins de commentaires), et environ 22% le réglage «2». Le mixage par défaut à été choisi à hauteur de 7%, et 14% n'ont pas de préférence. Cette petite expérience montre à quelle point le mixage est subjectif, différent pour chacun, et est un vrai casse tête pour l'ingénieur du son. Le MPEG-H est alors une belle proposition afin de résoudre ce problème.

10 Comme nous l'avons vu précédemment par exemple avec le sondage d'ORPHEUS sur le concept du NGA

Si il s'agit de diffuser un contenu enregistré (film, documentaire,...), un simple plugin de Fraunhofer nommé MHAPI est nécessaire à la conversion en format objet. Nous l'analyserons en partie 3 de ce mémoire.

Si il s'agit d'une diffusion Live (événement sportif, concert,...), les contraintes sont différentes et cela nécessite une configuration plus complexe afin d'obtenir les

mêmes résultats et fonctions, qu'avec un PAD utilisant le MPEG-H (interactivité, preset,...).

L'ensemble des micros d'ambiance et de la matière sonore (commentaire, musique,...) est reçu dans un car régie, afin de mixer et faire l'authoring du contenu (même principe de ce que nous venons de voir). Deux outils Hardware et Software sont majoritairement utilisés pour l'authoring, chacun ayant une interface différente mais effectuant la même tâche: le Jünger MMA (Multichannel Monitoring and Authoring) et le Linear Acoustic AMS (Authoring and Monitoring System). L'interface utilisateur, les presets ainsi que l'interactivité, sont entièrement modifiables en temps réel. La synchronisation entre le son (avec les métadonnées) et la vidéo se font verticalement, par frame (50 fps), et peut être assurés jusqu'à -30dB.

A ce jour, Fraunhofer fait des recherches sur un lecteur, car seul le hardware comme certaines télévisions ou barres de son (comme la «AMBEO» de Sennheiser» est capable de décoder, lire et profiter des avantages d'un contenu MPEG-H.

Webinar Fraunhofer «Hands on post-production for MPEG-H audio» le 27 Avril 2020 11 Contenu «Près à diffuser».

Le décodeur MPEG-H (USAC pour Unified Speech and Audio Coding) prélève les éléments (figure 2.13), on retrouve ainsi les objets, fichiers ambisonique et basés canal. Les signaux «Channel Based» son transmis au mixer virtuel, convertit au bon format si besoin est. Les objets sont traités en fonction des metadatas et le système de spatialisation SAOC (Spatial Audio Object Coding). Les fichiers Ambisonique sont eux aussi, traités par un moteur de rendu. Ainsi, l'ensemble du contenu audio est adapté aux configurations de l'auditeur, avec de l'interactivité et de la personnalisation. Un moteur de rendu situé après le mixer permet la binauralisation avec une réponse impulsionnelle pour ajouter ou non de l'acoustique de pièce pour plus de réalisme. Pas d'information sur l'insertion de fichier .sofa ou l'intégration de plusieurs HRTF, donnant la possibilité la meilleure expérience 3D au casque selon les personnes (un bon compromis si il n'y a pas de créateur d'HRTF comme propose Sony en partie 2.5.1).

«L'Approche Orienté Objet» mémoire de Florent Denizot, école Louis Lumière, 2016

2.3.2 Dolby Atmos

On peut retrouver le procédé Dolby Atmos également dans le salon. Côtés supports, plusieurs films ont commencé à être distribués en Atmos sur Blu-Ray. Les jeux vidéos sur consoles sont également compatibles (Forza, Assassin's Creed, Battlefield, Final Fantasy,...) proposant ainsi un réel potentiel sonore, en explorant les limites créatrices que l'audio ne peut pas forcément se permettre avec les codes de la fiction. Cela apporte un réel plus pour le joueur, pouvant se repérer et anticiper son jeux. Le marché en hausse des plateformes VOD/SVOD propose aussi l'Atmos (Netflix, Apple TV+, Amazon Prime, Vudu ou encore Youtube). Il faudra encore attendre afin de pouvoir regarder un film ou une série Atmos proposé par une chaîne de télévision, bien que la firme soit prête à diffuser des évènements Live avec le même codec AC-4 (annexe figure B1 pour en savoir plus sur la configuration Live). Au-delà de ses capacités de diffusion, on retrouve les possibilités de personnalisation que propose le MPEG-H tels que les presets (ici intitulé «présentation») avec le choix des langues, le volume des dialogues rehaussé ou modifiable, les commentaires sportifs «muté», etc.

Plusieurs solutions s'offrent au spectateur pour pouvoir profiter de ce format à la maison. Il est possible d'avoir une télévision Atmos qui lui permettra de regarder du contenu (Blu-Ray, SVOD,...) et de le restituer sur un home-cinéma Atmos par exemple. Il est aussi possible de passer par son Home-Cinema compatible, câblé à sa télévision (avec possibilité d'Upmixer un contenu). Afin de restituer les sons aériens, des systèmes jouent sur les réflexions du plafond, évitant d'encastrer des enceintes, donc une installation complexe chez le particulier, (bien que abordable et plus fidèle). Il s'agit d'enceintes à poser, d'autres inclusent sur le côté supérieur de la baffle servant aussi à restituer le canal Gauche/droite.

Mots clés: Atmos, Jeux vidéo, Blu-Ray, VOD/SVOD, Home cinéma, Barre de son, Interactivité Sources: Dolby.com ; aesfrance.info «Object Based Audio, Comment et Pourquoi?»

Puis des barres de son Atmos, plug&play, moins intrusives mais plus coûteuses sont sur le marché. Des programmes sont disponibles sur certains appareils afin de mesurer l'acoustique de la pièce, et offrir la meilleure expérience possible.

Le binaural se révèle alors être l'alternative aux prix élevés ou aux installations complexes, seulement avec un casque. Néanmoins, la société permet cette option d'écoute exclusivement avec les casques sans fil Dolby Headphones. Ces casques

dotés d'un Head Tracking sont connectés avec l'application Dolby Dimension, permettant d'écouter le contenu provenant du smartphone, de la télé ou tout autre appareil. Contrairement à Sony, Dolby ne croit pas pour l'instant à la personnalisation auditive (Création et virtualisation des HRTF) et propose une seule HRTF censée convenir pour tous. L'application permet avec le «Default Lifemix» de modifier le niveau d'extériorisation et l'acoustique, compensant le manque de personnalisation.

2.3.3: DTS:X

Étant plus présent que Dolby sur le marché du Blu-Ray, DTS poursuit son gage qualité avec DTS:X pour l'expérience à la maison.

Ce format rétro-compatible est disponible sur des Blu-Ray («Spiderman», «Jumanji», «Terminator»,...), et les plateformes de streaming Américaine Européenne et Asiatique (Rakuten TV, Fandango Now, Tsutaya TV,...).

Mots clés: Atmos, Jeux vidéo, Blu-Ray, VOD/SVOD, Home cinéma, Barre de son, Interactivité Sources: Dolby.com aesfrance.info «Object Based Audio, Comment et Pourquoi?»

12: Capteur de mouvement de tête permettant influant sur le contenu sonore un rendu plus réaliste (par exemple, un son provenant d'une direction de changera pas de localisation même avec les mouvements de tête) cf Annexe Figure B2

L'interactivité est aussi présente avec un contrôle du niveau des dialogues ou autres composantes (Musique, Foreground Effect, Background Effect) avec une interface simple et épurée, schématisée avec un curseur. Le responsable de l'authoring peut autoriser ou non certaines fonctions, mais la restriction semble moins évoluée que le format MPEG-H. Cela mène soit à une grande liberté de l'auditeur, au risque de détériorer les intentions créatives, soit à l'interdiction de la personnalisation du contenu.

Le format est aussi utilisé pour IMAX enhanced. L'IMAX faisant partie du même groupe que DTS (XPERI), ils ont associé leurs technologies au service du home-cinéma haute qualité, avec une amélioration visuelle (couleurs, taille de l'image,...) et sonore (adaptabilité, immersion).

Puis la firme est présente sur le marché du jeux vidéo, notamment sur présente sur la XBOX One, et en partenariat avec GDC (Game Developers Conference) l'un des événements professionnels les plus important dans ce domaine.

Beaucoup de home-cinema et téléviseurs sont équipés DTS:X (Sony, Trinnov, Pioneer, Denon, Yamaha, Lexicon,...), pouvant prendre en charge jusqu'à 11.2 canaux et trente-deux emplacements d'enceintes différentes. Un Upmix est possible afin d'exploiter les enceintes supérieures sur du contenu n'utilisant à l'origine que le plan horizontal. Le choix de la barre de son jouant sur les réflexions acoustique du salon est également viable, elles aussi nombreuses à être compatibles. Le binaural est accessible par l'intermédiaire du DTS HeadphoneX intégré sur les smartphones, tablettes et ordinateurs, pour une expérience sonore 3D sur les Jeux Vidéo, Films ou encore Musiques.

Mots clés: DTS:X, Jeux vidéo, Blu-Ray, streaming, Home cinéma, Interactivité Sources: dts.com aesfrance.info «Object Based Audio, Comment et Pourquoi?»

Le marché de l'automobile est en pleine extension, les acteurs de l'audiovisuel prévoyant de nous distraire sur le temps du trajet, temps qui finira par s'avérer libre avec les voitures autonomes. DTS fait parti de ces acteurs qui prend ce marché à part entière très au sérieux, avec l'utilisation du HeadphoneX pour le visionnage de films, et du son «Neural».

2.3.4: WFS

On retrouve aussi le principe WFS dans la fabrication des barres de son grand public, en associant plusieurs enceintes sur un espace restreint. L'onde n'est plus plane mais cardioïde, afin d'assurer une certaine homogénéité du son dans la pièce, la perception spatiale est alors plus aboutie. Cette technique facilite l'accès du multicanal au grand public car moins encombrante, bien que la qualité du son dépend beaucoup de l'acoustique de la pièce.

2.4 La Réalité Virtuelle (VR)

2.4.1 MPEG-H

Fraunhofer a pour avantage de créer non seulement les solutions Software mais aussi des solutions Hardware intégrées pour la VR, ce qui en fait un des acteurs principaux. Le partenariat avec B-COM a permis de présenter en 2017 le premier court-métrage en VR. Le MPEG-H est le codec privilégié pour les contenus à Réalité Virtuelle pour son efficacité de codage, et son flux binaire contenant l'ensemble des metadatas et diverses signaux audio (object, ambisonics FOA/HOA, Beds,...). L'interface est simple, et pratique pour l'utilisateur souhaitant une perception du contenu adapté à ses besoins. Les possibilités interactives sont les mêmes que pour le broadcast, cela dans un environnement 360. Des outils d'authoring, de spatialisation et d'encodage sont proposés par la firme sous forme de Plugin AAX / VST3 et un plugin Unity. Un rendu binaural y est intégré avec plusieurs fonctionnalités de Head Tracking.

Mots clés: Fraunhofer, AAC, Objets, 15 Pistes, Simplicité, MHAPI, Sources: aesfrance.info «Object Based audio comment et pourquoi?» iis.fraunhofer.de; b-com.com

2.4.2 Dolby Atmos

Dolby propose aussi des solutions pour la VR avec intégration de vidéo MP4 (vue

360 ou 2D) sur Windows/Mac, et compatible avec Oculus Rift pour le monitoring. Le Player VR Dolby peut être connecté en IP au Dolby Atmos Renderer sur ProTools, en gardant la synchronisation entre le son et la vidéo 360. L'export ambisonique semble être de l'ambiX (format B) d'ordre 1. Dolby Atmos VR Player Home disponible sur android, permet de lire le contenu avec le Samsung Gear VR ou Google Cardboard V2.

2.5 La Musique

2.5.1 MPEG-H avec Sony 360 Reality Audio

En fin d'année 2019, Sony a lancé son gros projet musical, le «360 Reality Audio», en

partenariat avec Google, Amazon Music, Deezer, Tidal ou encore Nugs.net, proposant du contenu audio 3D personnalisable. Après plusieurs recherches et échecs des entreprises ayant misées sur l'individualisation de l'écoute, Sony permet maintenant à l'utilisateur une expérience binaural optimisée. Avec l'application «Headphone Connect», l'auditeur peut scanner ses oreilles afin de créer ses propres données HRTF pour une expérience immersive maximisée, devançant largement DTS Headphones X. Il s'agit donc bien de restitution en trois dimensions (X, Y, Z), et non sur deux plans comme peut le supposer le nom marketing «360».

Sony collabore avec les grands labels de musique (Warner, Universal, Sony Music), et met à disposition son propre outil de production, traitant indépendamment chaque composante de la musique afin de la spatialiser. De simples projets multipistes d'anciens ou nouveaux titres sont éligibles au mastering 360 Reality audio. Pour cela, le codec MPEG-H est utilisé et peut diffuser du Dolby Atmos.

Contrairement au Dolby Headphones, l'utilisateur n'est pas obligé d'acquérir un casque compatible, (bien que Sony conseille ses casques adaptés) tout est donc très simple et accessible. Un catalogue de 1000 titres est d'ores et déjà disponible sur les plateformes et applications Deezer ou Tidal avec l'abonnement HiFi (Flac 1411kbps). Nugs propose également la rediffusion de concerts, le binaural prend alors tout son sens avec l'ambiance et l'acoustique d'un Live. Le nombre de titres doit encore s'étoffer, tout en ayant un réel apport et volonté artistique, exploitant judicieusement les possibilités du son 3D.

2.5.2 Dolby Atmos Music

Dolby Atmos conquiert aussi le secteur de la musique en étant également disponible sur Tidal et Amazon Music, avec Warner et Universal en partenaires. La firme mise son expérience en audio immersif, et sur la simplicité de ses outils (Dolby Atmos Music Panner) favorisant l'accessibilité, donc la créativité des artistes et techniciens. Des studios emblématiques en sont équipés (Abbey Road, Blackbird, ou encore Capitol Studios). Quelques concerts sont également mixés en Dolby Atmos, diffusés en salle de Cinéma et distribué en Blu-Ray ou encore les boîtes de nuit comme le club britannique «Ministry of Sound» et les DJ utilisent aussi cette technologie.

Les titres Dolby Atmos sont sujets à une nouvelle restriction du niveau sonore, 18LKFS intégré conforme aux différents services de musique.

2.6 Etude Statistique

Nous l'avons vu dans une étude d'ORPHEUS, ainsi que dans les différents cas précédents, les professionnels sont intéressés par l'OBA. Ce procédé a bien des avantages du côté technique, certains même l'utilisent dès à présent, mais quand est-il du grand public? Pour en savoir un peu plus sur les envies, la connaissance du grand public sur ces avancées audio, nous avons réalisé un court questionnaire, illustré pour guider un minimum les sondés. Les questions portaient sur les événements Live (concerts, spectacles,...), le cinéma, et le broadcast (audiovisuel à la maison) tout comme dans cette 2ème partie. Après avoir fait circuler ces questions à l'entourage et sur les réseaux sociaux, 219 personnes de toutes situations professionnelles ont répondu, la majorité étaient des jeunes de 17 à 29 ans. Bien Sûr ce questionnaire comporte des failles que ce soit sur la précision des réponses à choix multiples proposées, le manque de choix, ou la complexité de

Mots clés: DTS:X, Jeux vidéo, Home cinéma, HeadphoneX, automobile Sources: dts.com

quelques questions pour certaines personnes (bien que l'ignorance de certaines techniques audio peut être intéressante sur ce sondage). Toutefois, plusieurs participants ont fait partagé leur intérêt sur la thématique et les questions posées. Ce questionnaire est donc purement à titre indicatif et ne tend évidemment pas à représenter l'ensemble des utilisateurs. L'ensemble des résultats et des informations complémentaires du test sont disponibles en annexe C1.

2.6.1 Les Événements Live (concert, spectacles,...)

Les réponses concernant la fréquentation des concerts et spectacles sont très partagées. La majoritée s'y rende «parfois», pour un quart d'entre eux «souvent» contre un autre quart «rarement». Ce genre de plaisir est un véritable évènement, parfois plus coûteux, mais bon nombre se déplace et bénéficie d'une sonorisation pour écouter un spectacle/concert. 65.8% d'entre eux aimeraient une diffusion plus performante, s'accordant aux avantages de la WFS, telle que la sensation d'une sonorisation transparente, une véritable stéréo, ou bien même du son 360° ou 3D. Bien qu'il faut émettre des réserves quant aux réponses et sur la connaissance, la compréhension de ces termes utilisés, une grande majoritée aimerait une meilleure sonorisation. On peut également imaginer que parmis les 29.2% des personnes ayant répondu «Peu Importe», certaines n'en voient pas l'utilité car n'ayant pas testé un procédé plus performant, et ne voyant donc pas les avantages de celui-ci.

2.6.2 Le Cinéma

La quasi-totalité des personnes sondées aiment le cinéma, et contrairement aux spectacles et concerts, la fréquentation des salles à l'air plus courant. La plupart y vont plusieurs fois par an (58.9%), tout les mois (17.8%) voire même toutes les semaines pour 5.5% contre 11.9% qui y vont rarement.

Sur le type de film choisit pour se déplacer en salle, nous aurions pu constater un net avantage pour les films d'action/aventure ou blockbuster utilisant généralement le plus les caractéristiques techniques de la salle (le grand écran, son immersif,...) donc plus sujet à l'utilisation des objets audio. Même si les films d'actions/aventures/ horreur ou blockbuster arrivent très haut dans le choix des spectateurs, le résultat est assez partagé, 33.3% disent même ne pas avoir de préférence. Les films d'auteurs à priori plus calme (même si nous avons conscience que différenciation entre film d'auteur et blockbuster devient de plus en plus complexe) arrivent à 30%, de même pour les films «psychologiques».

Les raisons pour lesquelles les spectateurs se déplacent en salle continuent de

révéler les attentes réelles des cinéphiles . Dans cette question à choix multiples, «faire une sortie» est la raison qui prédomine. Il est amusant de constater ici, que la chronologie des médias, souvent décriée, est une raison majeure pour laquelle les personnes se déplacent voir un film.

13: Par le terme «cinéphiles» nous entendons «personnes aimant le cinéma» donc pas particulièrement connaisseurs.

Les conditions techniques arrivent en 3ème, ce qui en dit long sur le combat entre le cinéma en salle et télé (ou le cinéma à la maison). La technique, l'installation, font parties intégrantes de l'expérience en salle, mais ne sont pas forcément l'essence même du cinéma.

34,7% des personnes ici questionnées ne savent pas ce qu'est une salle équipée Dolby Atmos, (étant pourtant le procédé diffusion audio 3D peut être le plus connu), et 24% ne l'ont pas testé. Des progrès sont donc à faire (l'accessibilité, peut être sur la communication), mais ces résultats sont tout de même satisfaisants, car la majorité des personnes connaissent et sont allées en salle Atmos (soit 41.1%). D'autant plus que ces mêmes personnes ont remarqué la différence avec une salle standard (55.7%), et que 50.4% seraient prêtes à réitérer l'expérience, seulement en fonction du prix pour 45.6% (sachant que le prix est généralement identique). Prenant également en compte que ces salles Dolby Cinéma disposent d'un confort supplémentaire et de la technologie Dolby Vision pour l'image en plus de l'Atmos. Ces appréciations ne sont donc pas forcément dédiées aux progrès sonores.

(Ces données sont à prendre avec légèreté, car certaines personnes n'ayant pas été en salle Atmos on répondu à ces deux dernières questions sur l'expérience).

2.6.3 Le Broadcast et les supports grand public

Concernant les habitudes de consommation, les réseaux sociaux, la musique et les plateformes musicales sont très utilisés. Près de la moitié jouent à des jeux vidéos et regardent des contenus télévisuels, tandis que les livres audio, les podcasts et la réalité virtuelle ne sont pas encore dans les habitudes des personnes sondées. Les plateformes VOD/SVOD sont quant à elles très demandées, 36% sont abonnés à une plateforme, 46% ont plusieurs abonnements.

Ici les contenus sont regardés et écoutés principalement sur smartphone, ordinateur et sur un écran de télévision. Les écouteurs filaires sont le moyen d'écoute le plus utilisé, suivi de l'enceinte sans fil et enceintes filaires. Le casques (sans fil et filaire) sont bien présents alors que le home cinéma est assez peu répandu dans les foyers, seulement 27 personnes en possèdent. Avec ces différents moyens d'écoute, le format objet semble idéal pour s'adapter aux conditions de l'ensemble des utilisateurs.

Nous pouvons constater que beaucoup d'entre eux pourraient utiliser le binaural (écouteurs, casques). Seulement assez peu en ont bénéficié (41.8%) et beaucoup ne savent ce que c'est (44.1%). Les auditeurs semblent pourtant intéressés (54.3%) et aimeraient profiter de leur contenu (musique, film,...) avec du son 3D. Encore une fois, le nombre de personnes ne connaissant pas le binaural peut découler sur les 36.7% ayant répondu ne pas en avoir particulièrement besoin.

L'accueil du public sur les barres de son Atmos est moins chaleureux, du fait du prix important, ou préférant tout simplement se déplacer en salle de cinéma. 41 personnes seraient tout de même prêtes à acquérir une barre de son et enrichir l'expérience dans le salon.

Faisant directement référence aux avantages du format objet qu'offre le MPEGH, l'Atmos ou encore DTS:X (mais qui est encore peu présent pour le moment), cette dernière question demande quelles fonctions les utilisateurs aimeraient avoir.

Ces résultats témoignent à quelle point l'OBA peut répondre aux besoins des utilisateurs. On peut constater l'envie de pouvoir choisir les langues et les sous titres. Cela est faisable avec ce format, évidemment à condition d'effectuer un travail d'universalisation du contenu.

On retrouve aussi les fonctions importantes comme l'interactivité et le choix du format, qui résultent des réponses précédentes sur les habitudes de consommation, et l'envie d'un son 3D.

Par contre, la compréhension des dialogues ne semble pas un problème pour la plupart des personnes questionnées, contrairement à ce que l'on avait relevé en première partie de ce mémoire. Cela pourrait avoir un lien avec les habitudes Françaises.

En effet, la France a une culture du son qui a pour habitude d'accorder plus d'importance aux dialogues, donc à surélever le niveau des voix dans le mix, par rapport aux voisins Anglais par exemple. Ces derniers, eux, ont tendance à considérer la voix comme un instrument (en musique) ou élément à part égale dans la composition sonore, et ainsi plus intégrer la voix dans le mix. On peut également constater sur beaucoup de films internationaux, que les voix françaises doublées sont plus fortes que les voix originales (est-ce en lien avec l'esthétique du son ?). C'est une théorie qui pourrait expliquer ce résultat.

2.6.4 Synthèse

Ces quelques réponses de la part des 219 personnes dévoilent l'intérêt du grand public envers la nouvelle génération audio, fait d'interactivité et d'immersion, tout en s'accommodant aux habitudes des spectateurs. L'utilisation la plus probante pour le grand public est l'utilité de la NGA à la maison. Le choix des langues et sous titres, ainsi que la personnalisation de l'audio, sont des éléments faisant partie des besoins majeurs dans le broadcast, et dont les auditeurs semblent avoir véritablement envie. Vu la diversité du contenu et des moyens de diffusion, l'adaptabilité du format est un gros avantage dont semble se rendre compte les sondés. L'OBA doit évidemment encore s'insérer largement dans le paysage audiovisuel, se faire encore plus connaître du grand public, et ainsi faire bénéficier des avantages de ce nouveau concept.

3. Comment réaliser un projet audiovisuel au

3.1 Contexte d'étude

Cette dernière partie est consacrée à la pratique des différents outils, afin de rendre un projet audiovisuel au format objet. Avec la pluralisation des contenus et la naissance de différents formats, nous nous sommes interrogés sur la compatibilité et l'interaction qu'ils ont entre eux. Étant la norme de métadonnées la plus avancée, et adoptée par le plus grand nombre d'outils, nous avons décidé de réaliser ces tests en faisant des exports ADM (BWF), afin de vérifier la concordance. Ces outils utilisés pour cette expérimentation sont donc l'ADMix, le MHAPI, le Dolby Renderer, et Pyramix, assimilant l'ADM.

Le projet choisi pour ce test est un court métrage d'animation Disney, «Paperman», réalisé en 2012. Dans le cadre d'un précédent exercice de réalisation, ce film a été entièrement refait du point de vue sonore (bruitages, ambiances, musique, montés et mixés en 5.1). Ayant toutes les pistes de notre travail, ce fut le choix idéal pour les tests qui vont suivre. 30 secondes ont été retenues pour faciliter l'initiation au format. La scène contient un changement d'ambiance, une montée de musique, et beaucoup de mouvements sonores donc d'objets exploitables (foule, mouvements du protagoniste et des voitures,...).

En raison des conditions particulières dues au COVID-19, seulement deux outils (ADMix et MHAPI) ont pu faire l'objet d'une exploitation concrète, avec du matériel personnel, seuls outils étant compatibles avec ma configuration, sous Windows 10. Heureusement, Mr Bergame Periaux m'a gracieusement transféré des exports ADM des outils Dolby et Pyramix, permettant ainsi de mener à bien cette expérimentation. De plus, il aurait été intéressant de tester ces outils puis de constater la différence dans l'auditorium de mixage de l'école, cela se fera ultérieurement.

3.2 Comment rendre un projet au format ADM

3.2.1 ADMix de l'IRCAM

Comme nous l'avons vu dans le chapitre 1.4.2, l'ADMix a été créée par l'IRCAM. C'est une suite gratuite disponible sur Windows et sur Mac, qui contient quatre outils stand-alone. Dans un premier temps, nous allons étudier l'ADMix Recorder, qui permet de recevoir jusqu'à 64 canaux afin d'effectuer l'authoring.

Etant sur une interface Windows 10, il fallut trouver un driver audio reconnaissable par Reaper et l'ADMix, permettant de générer 64 connections audio virtuelles entre les deux logiciels. Le choix fut vite restreint, le driver ASIO LINK Pro remplissait certe les conditions, mais n'était guère stable, JACK audio fut alors la meilleure solution (logiciel également conseillé par l'IRCAM). Contrairement à Soundflower, (l'équivalent sur Mac), l'installation de JACK fut très longue et laborieuse, car pas du tout intuitive, cette étape de la pratique s'est avérée la plus complexe à réaliser. Une autre problématique était également présente. Contrairement à l'affichage et la configuration du driver sur un échantillonnage de 48KHz, celui-ci travaillait en 44.1KHz. Ce blocage n'a pas pu être résolu, la session Reaper et l'ADMix ont donc dû être également réglés sur cette échantillonnage pour que cela fonctionne. Le patch était droit (Reaper OUT1 vers ADMix In 1, etc) donc très simple, puis deux canaux (stéréo) sortaient de l'ADMix vers le système d'écoute pour le monitoring.

Ce projet ci est composé de deux ambiances (Quad et 5.0), d'une musique (2.0), d'une reverb (5.0), de 14 objets en mouvements et deux fixes (voitures, pas des personnages, papiers, ambiance bureau, chaise,...) . Pour un placement particulier, de la musique est alors considérée comme deux objets. 32 canaux ont donc été utilisés.

Sur Reaper, le patch est très simple. Il suffit de router la sortie hardware de la piste sur le canal désiré. Si il s'agit d'une piste multicanale, le type de source doit être indiqué en sélectionnant «multichannel source» puis le bon nombre de pistes présent (ce menu déroulant dépend du nombre «track channels» sélectionné).

Une fois que tout est routé sur la session, et que l'ADMix est bien paramétré (échantillonnage, driver,...) et l'audio activé sur la fenêtre principale, le signal apparaît sur la première rangé de vu-mètres «pre-routing» (figure 3.3).

Il est temps d'utiliser la page «configure» (avec le bouton du même nom). Cette page visible sur la figure 3.2, permet de faire l'authoring du projet en indiquant le nom programme, et le type d'audio que l'on veut ajouter («objects», «direct speakers», «HOA», «binaural», «matrix»). Un grand nombre de format est proposé avec un menu déroulant pour les «Orientés Canaux» (5.0; 5.1; 5.1 TV changeant l'ordre des canaux, le Quad; 22.2; Cube; Auro 3D; etc) ou le type d'ordre ambisonique (de l'ordre 1 à 10 et le type de data comme SN3D ACN, N3D ACN, FuMa). Dès l'ajout d'un élément, il est possible de le nommer et de changer la couleur de la pastille. Ces éléments se retrouvent aussi dans la matrice permettant de router l'élément de façon très claire et facile, évitant ainsi les erreurs comme l'ordre des pistes par exemple. Dès que le patch est réalisé dans cette matrice, l'audio le signal est visible sur la deuxième rangée de vu-mètres «post-routing», il est désormais possible de l'entendre.

Une section est dédiée au monitoring (figure 3.3) avec des fonctions «mute», «bypass», le choix du système d'écoute (5.1; cube; 22.2; 5.0; ...) avec la possibilité d'insérer un fichier .sofa pour travailler avec ses HRTF et monitorer le projet en binaural (cf projet BiLi ¹⁴).

Une fenêtre (figure 3.4) donne une représentation de la scène avec deux points de vue, (dessus pour le placement et une vue pour l'élévation). Les carrés correspondent aux «Channel based» et les ronds aux objets, pouvant être déplacés directement sur cette fenêtre ou avec le plugin ToscA (figure 3.5).

Ce plugin VST et AAX s'insère sur chaque piste objet, et fait la liaison avec l'ADMix renderer avec le protocole OSC, plus stable que le MIDI. Une fois les données «Input et output port» déterminé et identique pour le plugin et le logiciel (send et Receive port dans la partie OSC cf figure 3.3), seul un identifiant définit chaque piste objet avec ses propres données d'automations (X, Y, Z, Gain).

Pour tester la liaison, il est possible de faire un ping sur le plugin, des voyants s'allumeront sur l'ADMix à la bonne réception. L'automation d'objet ne prend pas plus de temps qu'une automation orientée canal classique, et ne change rien à l'utilisation. Comme on peut le voir sur la figure 3.4, la succession de plusieurs éléments peuvent compliquer le placement d'un objet. C'est pourquoi il est préférable d'avoir le moins de piste possible sur la session, et de travailler sur les automations (bruitage 1, bruitage 2 et non un objet par piste), la matrice sera également plus claire.

Une fois le projet terminé, et la destination choisie dans la fenêtre «Configure», il suffit «d'armer», de lancer l'enregistrement et la lecture de la session Reaper. C'est donc un enregistrement à temps réel, tel un «Print», qui peut s'avérer long pour un projet plus important. Il est possible d'enregistrer la session ADMix Recorder. Petit bémol, les données OSC du logiciel ne seront pas gardées lors de la réouverture de la session.

A l'emplacement final, nous retrouvons donc un fichier .txt correspondant à la session ADMix, et un fichier audio WAV de 148 Mo contenant l'audio et les métadonnées.

Ici, pas de gestion d'interactivité, étant un outil plus destiné à la production cinématographique avec une diffusion en salle. On ne retrouve pas non plus toutes les fonctionnalités de l'ADM que l'on à vu en partie 1, comme l'Audio Program Reference Screen» avec l'indicateur «Screen Ref Flag», ou encore la fonction «Head Locked» pour le binaural. L'inconvénient d'un logiciel stand-alone est d'avoir plusieurs fenêtres volantes et une surface de travail assez chargée contrairement à un plug-in intégré à la session. Malgré tout, l'ensemble de l'ADMix est très clair, simple, stable et fonctionnel.

La suite propose plusieurs outils pour vérifier le bon fonctionnement. L'ADMix Player est un petit programme de lecture BWF ADM contenant 64 canaux avec une barre de transport classique (play, pause, loop,...). L'ADMix Renderer (visible en Annexe D)est lui aussi un lecteur mais plus performant, allant jusqu'à 128 canaux de lecture et

intégrant une partie monitoring identique à l'ADM Recorder (choix du format d'écoute, sur enceinte ou en Binaural). Notre projet est bien lisible et utilisable.

Il est aussi possible d'extraire les métadonnées avec l'ADMix ExtractXML. Un simple import du BWF dans le programme extrait instantanément les fichiers. On retrouve le .xml (de 7.80Mo pour ce projet), mais aussi un .chna (contient les chna chunk, soit les informations concernant la norme ADM) et plusieurs .dot (décrivant la hiérarchie et les détails des objets). Le code inscrit sur les .dot peut être visualisé en ligne sous forme graphique sur le site « graphviz.org» (graphique du projet en annexe Figure D2).

3.2.2 MHAPI de Fraunhofer

Plusieurs outils intègrent le MPEG-H comme le panner 3D de Spatial Audio Designer de New Audio Technology, mais aussi Oculus, DSpatial, Sound Particles, Qualcomm HOA Tools,... Nous allons retenir le plus développé, celui du créateur du format, le plugin «MHAPI» (MPEG-H Authoring Plugin) compatible Protools, Reaper, Nuendo, Pyramix, Sequoia.

Contrairement à l'outil de l'IRCAM, le MHAPI est destiné au broadcast, proposant certes moins de pistes dues à la conformation du contenu pour le flux SDI, mais de l'interactivité. Étant limité à 15 pistes (la 16ème pour le control track), la session Reaper est légèrement différente, en pensant à ce que l'auditeur pourrait disposer. Ayant un trop grand nombre d'éléments, le contenu a été séparé en trois: «la musique», «l'ambiance avec la reverb», «les sons seuls/bruitages». Le spectateur pourrait ainsi choisir de modifier le volume des trois éléments les plus importants. Les 16 effets précédents ont dû être compactés en un classique «channel based» 5.1 comme l'ambiance avec la reverb. La musique est encore une fois utilisée sous forme de deux objets. Avec la musique (deux canaux), l'ambiance/reverb (6 canaux), les sons seuls (6 canaux), 14 canaux sur 15 sont déjà exploités. Un dernier canal pourrait être ajouté pour de l'audio description par exemple.

Puisque le précédent driver QJack ne pouvait délivrer une fréquence d'échantillonnage de 48 KHz, nécessaire pour que le MHAPI puisse travailler, il fallut

en trouver un autre. Comme il s'agit d'un plugin, il n'était pas essentiel d'utiliser un driver faisant un grand nombre de liaison virtuelles. Ici, le driver VoiceMeeter (capable de procurer 8 entrées/sorties), était utilisé pour le monitoring.

Le patch est plus simple, et rapide avec l'intégration du MHAPI dans le DAW (Figure 3.6). Une piste Master 16 canaux (équivalente à une piste ambisonique pour les autres DAW) est créée, correspondant au nombre de canaux admis par le MPEGH. Puis, l'ensemble des trois groupes qui constituent le contenu («music»; «amb-i-rev»; «Fx bruitages 5.1») est routé dans cette piste master, contenant en FX le plugin.

Une fois que le routing est effectué, c'est l'étape de l'authoring (figure 3.7), dans un premier temps dans l'onglet «components». On indique le type de son que l'on souhaite ajouter soit un objet (-i-obj), un bed (-i-ch) ou un Switch Group (-i-SwG), en prenant en compte l'ordre du patch («input routing»). Dans cet exemple, il s'agit d'un objet contenant de la musique («Content Kind music»), nommé «Music» et constitué de 2 canaux («Object Count» 2), donc deux objets apparaissent dans la représentation spatiale. Il est possible de changer la position directement sur cette fenêtre ou l'agrandir et utiliser plusieurs vues pour plus de précisions.

Ici pas de langage particulier sur la musique (Content language «unknown»). La partie «Interactivity Settings» comme son nom l'indique, définit les limites de modification sur les paramètres par défaut définit. Dans cet exemple, le gain, l'azimut et l'élévation de la musique n'ont pas de limite, les auditeurs pourront modifier ces paramètres comme bon leur semble sans restriction.

Ceci est le même principe que pour l'ajout des deux autres composantes orientés canaux 5.1, à l'exception d'être ancrés dans la représentation spatiale (il n'est pas possible d'intégrer de l'ambisonique sur cet outil). Les possibilités d'interactivités seront limités aux paramètres de gain. L'utilisation d'un Switch Group dans ce cas n'est pas utile.

Après avoir défini les composants du contenu, il est obligatoire de définir un preset minimum, qui sera proposé par l'utilisateur sur sa télévision par exemple (Figure 3.8).

Un preset par «défaut» est créé avec l'ensemble des composants, sans modification de localisation ou de gain apporté avec les potentiomètres (paramètres d'origine). Les «User Gain» et «User Pos.» activent l'interactivité. «Anchor» active ou non la mesure de loudness autour de cet élément (à décocher dans la plupart des cas). Un autre preset est créé «sans musique», ou seul l'ambiance et les sons directs sont présents. La vérification du fonctionnement des presets se fait dans l'onglet «Monitoring», par simple sélection de ceux-ci, avec une représentation spatiale.

Dans les onglets dédiés, il est possible de choisir le type de Downmix 5.1 et 2.0 (centre -3dB, LFE mute,...), ou encore d'adresser une automation de gain spécifique (Dynamic Gain) pour un composant comme l'audio description.

Avant d'exporter, il est impératif de mesurer le Loudness du contenu. Celui-ci est encore une fois très simple à utiliser. Il suffit d'indiquer les points d'entrée et de sortie à l'aide de la barre de lecture du DAW, de lancer la mesure et la lecture du projet. Le loudness se fait aussi, en temps réel.

Pour la dernière étape, l'export du projet, plusieurs options sont proposées, un export MPEG-H ou BWF/ADM, avec le choix du du nombre d'images par seconde (50fps ou 59.94 fps) et le nombre de bits (16 à 32). Un export XML est possible dans le cas ou l'on exporte en MPEG-H. Puis, le principe est le même que pour la mesure du loudness avec les points d'entrée/sortie et le rendu en temps réel (figure 3.9).

3.2.3 Dolby Atmos

Dolby propose deux solutions. Le Dolby Atmos Mastering Suite est une combinaison Hardware/Software adaptée pour le workflow mixage et mastering d'un contenu Atmos, disponible sur Mac ou Windows. Le Dolby Atmos Renderer est alors intégré sur Protools (2018.3 ou plus) ou Nuendo (8 ou plus) et fonctionne avec le RMU ¹⁵ avec une liaison ethernet. Elle inclut trois licences «Production Suite».

Le Dolby Atmos Production Suite met à disposition le Dolby Renderer en Stand-Alone seulement sur Mac pour Protools et Nuendo, connecté avec le plugin send/return (puis sorties Hardware dans les I/O Setup de Protools) ou Dolby Audio Bridge (figure 3.10). Cette solution est plus adaptée pour le pré-mix ou une salle de montage non-équipée, car fonctionnelle seulement avec un ordinateur et un casque (logiciel remplaçant le RMU), libérant par la même occasion l'auditorium principal ou le studio de doublage.

Sources: Dolby.com «Create in Dolby Atmos» Dolby Institute; Dolby Atmos renderer guide «L'Approche Orienté Objet» mémoire de Florent Denizot, école Louis Lumière, 2016, Annexes E

15: «Rendering Mastering of Unit», unité centrale ou processeur du système de diffusion Dolby, contenant des logiciels (calibrage de salle, monitoring,...) fonctionnant sous windows, avec deux cartes MADI. Elle permet l'interprétation des métadonnées et le rendu audio pour la diffusion.

On retrouve sur l'interface claire et épurée une partie Input/object/bed avec des indicateurs de signaux, la configuration d'enceintes utilisées, une représentation spatiale 3D avec apparitions des objets, des crêtes-mètres, une partie transport, monitoring et bien d'autres paramètres. Une fois que le routing est prêt, la fenêtre «Input Configuration» permet l'authoring des sources. Il s'agit d'un patch droit, avec pour chaque source les enseignements sur l'audio comme le format (objet ou bed 2.0 - 7.1.2) sa description, et l'affiliation à un groupe (Dialog, Music, FX, Background, Foley). A défaut d'avoir moins de propositions disponibles pour le format des beds (avec le manque du format ambisonique), le workflow semble encore plus simple et rapide que l'ADMix Recorder, en se passant d'une matrice.

Sources: Dolby.com «Create in Dolby Atmos» Dolby Institute; Dolby Atmos renderer guide

La fenêtre «Room Setup» détermine un preset ou une configuration d'enceinte personnalisée, l'ordre des canaux, le gain des points de sources, le delay, et le spectre avec un EQ.

L' OBA et les outils Atmos sont très bien intégrés sur Protools. Après la connection entre les DAW (Atmos «Enabled» dans la fenêtre peripherals de Protools Ultimate), le passage d'une piste traditionnelle en objet se fait en quelques clics dans les I/O ou directement dans la fenêtre de mix («Mix Windows View»> »Object»). Le Protools Panner incorpore la dimension de hauteur (un potentiomètre supplémentaire «Height»), les habitudes techniques concernant les automations restent inchangées. Un projet OBA ne nécessite donc pas plus de temps qu'un projet traditionnel.

L'un des gros avantages de l'outil est qu'il peut faire plusieurs exports de différents formats et groupes (stems Dialog, Music, FX, Background, Foley) en offline ou online. Les niveaux des downmix (Trim Controls) peuvent être ajustés (back/front, Surround, Height) et sont appliqués en temps réel pour le monitoring ou en rendu (également décrits dans les métadatas). Cette méthode s'avère très utile pour gérer la compatibilité des salles (versions dans un seul DCP) et les supports. Une fenêtre est dédiée au rendu Binaural, avec le choix d'assigner quatres modes de binauralisation pour chaque piste, OFF (non virtualisé), Near, Mid, Far. Cette autre vision du binaural avec de simples paramètres et propositions de distances semblent intéressants. L'export ADM BWF a lui aussi sa fenêtre, avec simplement le choix de l'emplacement du fichier et les points d'entrée et de sortie du rendu.

Le Dolby Renderer sert également de player, avec le choix de la source («input» ou «Master») les canaux et les objets sont alors visibles sur la partie Input Indicators et sur la représentation 3D (figure 3.11).

Cette nouvelle dimension est alors totalement intégrée à la production de contenu audiovisuel avec le Dolby Atmos, cela avec simplicité et sans temps additionnel. Seulement, l'interaction manque à l'appel. Bien que cet outil soit consacré à la production cinématographique, il serait intéressant de proposer aux utilisateurs de plateformes ou supports des options de personnalisations selon les besoins, sans pour autant offrir une totale liberté et dénaturer l'oeuvre (format de diffusion, import d'HRTF, volume des dialogues, audiodescription).

3.2.4 Pyramix de Merging Technologies

Pyramix est le premier logiciel à intégrer nativement le format ADM et MPEG-H, ce qui est à première vue, très pratique. Une fois les composantes routées vers différents bus et le projet terminé, il nous est proposé d'effectuer un export ADM BWF et/ou MPEG-H sous forme de cases à cocher (après avoir choisi «Single Media» et le format BWF plus haut, figure 3.12). La fenêtre «Settings» permet l'authoring des bus de la session, et d'indiquer celles-ci comme étant des dialogues, de l'audio description et si elles utilisent une langue en particulier. Le logiciel se charge donc de la retranscription en métadonnées des automations et des informations renseignées. Cette méthode peut être plus pratique et rapide dans le cas d'un export ADM, ne nécessitant pas l'utilisation de l'ADMix et sa matrice (sous réserve de la compatibilité des métadonnées). Pour un export MPEG-H, les possibilités qu'offrent Pyramix semblent bien pauvres comparé au plugin MHAPI avec les notions d'identification et d'interactivités (switch group, limites interactives, trim controls, presets,...). Pyramix est capable de faire des exports mais ne fait pas office de lecteur.

3.3 Comment fonctionne la compatibilité ADM des différents outils?

Bien que cette partie pratique vu précédemment a rencontré plusieurs problématiques (driver et liaisons virtuelles, logiciels payants ou utilisables uniquement sur Mac), les outils sont tout de même assez accessibles, intuitifs et fonctionnels. Après les exports en ADM du projet avec les différents outils présentés, nous avons utilisé les outils de lecture, afin de vérifier les compatibilités de ces quatre exports.

3.3.1 Compatibilité avec l'outil de l'IRCAM

Le lecteur le plus performant, l'ADMix Renderer a été utilisé pour ces tests. Comme prévu, le lecteur lit le fichier exporté par l'ADMix recorder. L'outil arrive également à lire l'export ADM Dolby Atmos et Pyramix . On retrouve alors nos beds et l'objet avec son déplacement sur la représentation 3D, le signal des différents canaux dans les vu-mètres, ainsi que des informations sur les metadatas.

Pour ce qui est de l'export ADM provenant du plugin MHAPI, il est reconnu par l'ADMix mais n'est pas lisible (figure 3.13).

Export ADMix

Export
MHAPI

Export

Dolby Atmos

Export Pyramix

ADMix Renderer

3.3.2 Compatibilité avec l'outil de Fraunhofer

Le plugin MHAPI ne permettant que l'authoring et non pas la lecture, nous avons utilisé l'outil de Fraunhofer récemment achevé et proposé, l'ADM Info Tool. Il permet par un simple import du fichier, d'indiquer la compatibilité avec la norme ADM et MPEG-H. Cette fois ci, les résultats sont moins concluants, aucun n'est compatible ADM selon l'outil (cadre noir sur le tableau figure 3.15). Pour le fichier ADMix, il était prévisible que cela ne soit pas démontré, car le fichier ADM à un échantillonnage de 44.1KHz, alors que les outils Fraunhofer n'accepte que le 48KHz.

On s'attendait également à la reconnaissance des fichiers MPEG-H provenant de Pyramix ou du MHAPI, mais ce ne fut pas le cas. Avec ce dernier, l'ADM Info Tool l'indique comme obsolète; tandis avec le MPEG-H Pyramix, il ne pouvait importer le XML ou <chna>chunk (métadonnées décrivant le fichier XML inclus dans le BWF). Finalement, la seule conformité vérifiée est pour l'ADM Dolby Atmos compatible MPEG-H (figure 3.14 et figure 3.15). Il est également possible avec cet outil de comprendre pour quelles raisons ce n'est pas compatible. Les raisons semblent être au niveau du référencement des données («TrackFormatID», «ChannelFormatID», «Position Sub-element»,...) et de la compatibilité des différents loudness.

ADMix ADM

MHAPI
ADM

Dolby Atmos
ADM

Pyramix
ADM

Pyramix
MPEG-H

MHAPI
MPEG-H

Compatible ADM

X
(erreurs
référencement
et loudness)

X
(erreurs
référencement et
loudness)

X (erreurs référence ment et loudness)

«could not import
XML or

<chna>chunk»

Compatible MPEG-H

«Deprecated
ADM Profile»

«could not import
XML or

<chna>chunk»

«could not import
XML or

<chna>chunk»

3.3.3 Compatibilité avec l'outil de Dolby

Le Dolby Atmos Renderer étant aussi un lecteur, des tests ont pu être réalisés pendant la période d'essai de l'outil. Le Dolby Atmos Conversion Tool a permis, une fois la période d'essai expirée, d'essayer malgré tout la conformité avec l'export Pyramix. Des essais avec les autres exports ont également menés aux mêmes résultats qu'avec et l'outil Renderer. L'outil gratuit disponible sur Mac et Windows permet la conversion d'un fichier en .atmos, .rpl, .wav (ADM BWF) et .mxf, avec le choix du nombre d'images par seconde ainsi que le temps du FFOA (First Frame Of Action).

Comme convenu, l'export Dolby est bien lisible par les outils de la marque. L'export ADMix révèle encore une fois son défaut de fréquence d'échantillonnage (44.1KHz), et ne peut être lu par les outils, n'acceptant que des fichiers en 48KHz ou 96KHz.

La lecture est également impossible pour l'ADM de Fraunhofer MHAPI. Pour le test de l'ADM Pyramix avec le Conversion Tool, même constat, avec comme inconnu «l'audioChannelFormatIDRef».

Export
ADMix

Export
MHAPI

Export

Dolby Atmos

Export Pyramix

Dolby Atmos Renderer / Conversion Tool

X
(test réalisé seulement
avec le Dolby Conversion
Tool)
«audioChannelFormatIDRef

Unknown»

3.4 Synthèse

	LECTEUR ADMix Renderer IRCAM	LECTEUR ADM INFO Tool Fraunhofer	LECTEUR Dolby Atmos Renderer / Converter
EXPORT ADM ADMix Recorder IRCAM		non reconnu défaut 44.1KHz	non reconnu défaut 44.1KHz
EXPORT ADM MHAPI Fraunhofer	accepté mais pas lisible	x (erreurs référencement et loudness)	x
EXPORT ADM Dolby Atmos Renderer		x (erreurs référencement et loudness)
EXPORT ADM Pyramix Merging Technologies		x (erreurs référencement et loudness)	(test réalisé seulement avec le Dolby Conversion Tool) «audioChannelFormatIDRef Unknown»

Comme nous venons de le voir à travers cette expérimentation, de grands progrès sont encore à faire pour la bonne cohabitation entre les formats ADM/BWF, AC-4 et MPEG-H.

«Selon l'IRT, il reste à résoudre une équation qui mélange le loudness Orienté Objet, la

réverbération 3D et sa description dans l'ADM (adaptées aux objets audio), et la normalisation de profils ou à minima de bonnes pratiques pour un format de transport de l'ADM ¹⁷.»

Ces propos peuvent assurer notre avis sur les précédents résultats obtenus. Une évolution de l'ADM pourrait être la solution, car elle est malgré tout bien appréhendée par les grandes firmes du marché audio, pour de multiples applications. Elle unifierait de par sa norme, l'ensemble des acteurs pour ainsi rendre l'Orienté Objet encore plus simple, pratique et accessible pour les professionnels comme pour le grand public.

16: Comme vu précédemment dans la partie 1.4.3 Sources:17: aesfrance.info «Object Based audio comment et pourquoi?»

Conclusion

L'OBA porte bien son nom de Nouvelle Génération Audio. Le concept associant l'audio aux métadonnées répond à tous les besoins (personnels ou professionnels) que nous connaissons aujourd'hui, soit l'interaction, l'immersion, et l'adaptabilité sonore, applicables à tous les secteurs de l'audiovisuel.

En sonorisation, la WFS révolutionne la diffusion de spectacles et concerts. Plus naturelle et immersive, elle utilise le principe objet qui s'implante parfaitement dans la chaîne du son Live. La grande entreprise française de prestations L-Acoustics, propose des solutions hardware et software très intéressantes, en tenant compte les contraintes de l'événementiel.

Le Dolby Atmos semble dominer le secteur du cinéma avec son large catalogue de films et de salles de cinéma. Bien que le format semble plus fermé comparé à son concurrent le DTS:X, les outils sont très aboutis pour l'utilisation de l'objet dans la production cinématographique jusqu'à la diffusion, ce qui rassure les professionnels.

Coté Broadcast, le MPEG-H semble être le format leader, très avancé sur l'interactivité (paramètres limites, presets,...), applicable pour du contenu prêt à diffuser ou des programmes Live. Les outils accessibles et intuitifs sont d'ores et déjà utilisés pour la télévision Coréenne, et testés lors de grands événements (Roland Garros, Eurovision, coupe du monde de foot 2018,...). La simplicité de l'interface utilisateur est également un élément important.

Le Dolby Atmos est aussi bien présent dans les matériels et supports grand public (Home-Cinéma, barres de son, console de jeux, Blu-Ray,...), ainsi que les plateformes VOD/SVOD (Netflix, Apple TV+, Amazon Prime, Youtube,...).

Le MPEG-H est également le format privilégié pour les contenus à Réalité Virtuelle pour son efficacité de codage, son flux binaire, son interface simple et les possibilités d'interactions très utiles pour l'environnement 360°. Le Dolby Atmos propose un player qui se connecte à son outil far, le Dolby Atmos Renderer.

Puis nous retrouvons encore une fois le MPEG-H et L'Atmos qui se bataillent sur le marché de la musique. Le format de Fraunhofer est utilisé par le gros projet Sony «360 Reality Audio» en partenariat avec Google, Amazon Music, Deezer, Tidal ou encore Nugs.net, proposant du contenu audio 3D personnalisable.

Le Dolby Atmos également partenaire de Tidal, Amazon Music, la Warner et Universal peut aussi être diffusé avec le projet Sony 360. L'outil Dolby Atmos Music panner dédié à l'industrie musicale est proposé aux créateurs. Quelques concerts sont également mixés en Dolby Atmos, diffusés en salle de cinéma et distribué en Blu-Ray.

Face à l'apparition de formats objets, la norme ADM est standardisée en 2017 (ITU-R BS.2076-2), puis abordée par les grands acteurs de l'OBA. Les outils ADMix de l'IRCAM, le MHAPI de Fraunhofer, le Dolby Atmos Renderer ainsi que Pyramix de Merging Technologies intègrent la norme, permettant de réaliser des exports BWF, parfois même de les lire.

Ces outils sont intuitifs, certains plus accessibles de part leur gratuité ou l'intégration native de la norme dans le DAW. Le temps de production semble être identique, et les downmix directement proposés sont très pratiques. Cette étape toujours existante, doit invariablement recevoir une attention particulière, avec une vérification des versions exportées.

A travers les recherches et expérimentations durant ce mémoire, le dialogue entre ces formats semble complexe malgré la normalisation. De nombreuses questions restent en suspens comme le référencement, la réverbération, l'interactivité et le loudness.

L'OBA est un moyen d'élargir les possibilités artistiques des créateurs dans pratiquement toutes les applications audiovisuelles, et de conserver de manière optimale, les aspects de l'oeuvre jusqu'à l'écoute des spectateurs. Idéalement, son utilisation ne se limiterait donc pas à l'ajout d'immersion pour les Blockbusters, mais bien à toutes productions voulant enrichir son contenu pour les spectateurs, quelque soit leurs moyens de diffusions et sans coût supplémentaire.

Toutefois, l'Audio Objet est récent, son implémentation doit encore largement s'accroître, se démocratiser, et les différents formats cohabiter sous une évolution de la norme ADM. Son rôle de facilitateur pour les professionnels tout comme le public serait alors pleinement achevé.

Légitimement, des questions se posent sur l'automatisation, sur l'adaptation (qui est réalisée par le moteur de rendu), ainsi que sur la réalisation même du contenu, c'est pourquoi il faut rester prudent. Comment seront exploitées ces possibilités qu'offrent l'OBA? Ces moyens techniques devront être pris en compte pour la création, afin de les utiliser à bon escient, la qualité du contenu et l'expérience utilisateurs se verraient réduites.

Au delà de ces questionnements, la nouvelle génération audio comporte bien des avantages, et compte révolutionner la production sonore et l'utilisation de contenus dans tous les secteurs de l'audiovisuels.

Bibliographie

«Le son multicanal, de la production à la diffusion du son 5.1, 3D et binaural» de Bergame Periaux, Jean-luc Ohl et Patrick Thévenot, Paris, Dunod: INA 2015

«La chaîne du son au cinéma et à la télévision, de la prise de son à la post-production» de Lucien Balibar, Paris, Dunod: INA 2019

«A Retrospective of the Groundbreaking sound system of Disney»a Kristina M Griffin Thesis «L'Approche Orienté Objet» Mémoire de Florent Denizot, école Louis Lumière, 2016

«Utilisation de la technologie WFS dans la création sonore cinématographique: Possibilités et limites» Mémoire de Rémi Carreau et Thibault Macquart, école ENS Louis-Lumière, 2015

«Méthode d'enregistrement en Audio Orienté Objet» AES Convention Paper le 7 Juin 2016, Paris Audio Definition Model Recommandation ITU-R BS.2076-2 (10/2019)

Dolby Atmos renderer guide le 02 Août 2018 Dolby Atmos Renderer v3.4 Release Notes Dolby Atmos Player Guide

ETSI MDA « Object-Based Audio Immersive Sound Metadata and Bitstream» 2015, vol. 1.1.1.

ITU-R BS.1770 «Algorithms to measure audio programme loudness and true-peak audio level». ITU-R BS 2127 «Système de restitution ADM pour les systèmes sonores évolués»

«Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding» AES Convention

Screenprism.com article «What was Fantasound and why was it created for fantasia»

«Histoire du son au cinéma» La semaine du son 2011, conférence SAE Institute Paris

«Hands on post-production for MPEG-H audio» le 27 Avril 2020 «Everything you need to know about MPEG-H» le 23 Avril 2020 «MPEG-H Audio workflow in live broadcast» le 29 Avril 2020

«L-ISA Loudspeaker object oriented mixing» «L-ISA Controller dynamic mixing tools»

Annexes

Document Audio Definition Model ITU-R BS2076-2 disponible ici.
www.itu.int/rec/R-REC-BS.2076-2-201910-I/fr

Partagé à mon entourage, et dans les groupes Facebook («Etudiants de Rennes», «Art du Spectacle Université Rennes 2» «La ligue des Cinéphiles», «Sondage», «Neurchi Sondage», «Partagez vos sondages et questionnaires !»)

(défaut: film d'action apparaît deux fois. De plus, tous les genres n'y sont pas représenté et la définition du terme est complexe)

Réalisé lors du séminaire de Genève le 17 et 18 Mai 2017, présentant les avancées d'ORPHEUS.