Quels sont les enjeux de l'audio orienté objet ?par Axel MORVAN ESRA Rennes - Institut Supérieure des Techniques du Son 2003 |
2.2.3 WFSLa WFS nous l'avons vu, est surtout connu de l'événementiel, mais des salles de cinéma utilisent aussi pour certaines d'entre elles ce système, s'éloignant ainsi de la course aux formats. Reposant sur la multiplication des diffuseurs et sur l'audio objet, la salle de cinéma pourrait alors contenir avec cette technique un nombre suffisant d'enceintes, donnant une grande précision spatiale, et ainsi, être capable de recevoir tous types de formats. La salle et le processeur s'adapteraient, sans altérer le contenu. Avec ces avantages sur le papier, la WFS aurait pu influencer l'installation des salles de cinéma, et pourtant le Dolby Atmos semble dominer le marché du cinéma Orienté Objet. Les inconvénients semblent principalement être au niveau du coût de l'installation et la de la complexité d'adaptation, dus à un nombre important d'enceintes. Dolby offre le nécessaire sur toute la chaîne de production cinématographique (du mix à la diffusion, normé, avec des outils hardware et software), avec un large panel de films produits dans ce format. Le choix d'équiper une salle en Atmos semble alors être préférable, et à moindre risque du point de vue technique pour les exploitants de salles. Mots clés: WFS, adaptabilité, Dolby, DTS:X, MDA Sources: Dolby.com; Sonicemotion.com «Utilisation de la technologie WFS dans la création sonore cinématographique: Possibilités et limites» mémoire de Rémi Carreau et Thibault Macquart, école ENS Louis-Lumière, 2015. 10: Associationdesmixers.fr selon Gérard Loupias, directeur de développement DTS:X Europe 31 2.3 Le Broadcast et les Supports grand public 2.3.1 MPEG-HLe MPEG-H est un format audio objet ouvert, élaboré par Fraunhofer pouvant être lu sur n'importe quel enceinte ou casque. Il a été testé et utilisé dans le monde entier par TV Globo (télé Brésilienne), NHK (télé Japonaise), CCTV (Télé Chinoise), l'Eurovision (2018 et 2019), pour la coupe du monde de foot 2018 ou encore France TV pour Roland Garros; et est d'ores et déjà actif pour la télé 4K Sud Coréenne. Le MPEG-H a été conçu pour pouvoir être transmis par un simple câble SDI sans perte de qualité, ce qui le limite pour l'instant à 16 canaux audio dont un canal dédié aux metadata, ici appelé «Control Track» (aussi en flux PCM), évitant la perte des métadonnées. Le nombre d'objets est alors limité, donc la liberté d'adaptation et de personnalisation est plus réduite. Conformer le contenu pour les salles de cinéma nécessite un grand nombre d'objets (donc de piste), cela semble alors compliqué pour le MPEG-H. Mais ce format est très intéressant pour la télé, la VR, la musique en streaming, les podcasts, la diffusion live ou tout autre contenu à consommer à la maison. Les promesses de la NGA offrant une meilleure expérience avec un son immersif (adaptabilité selon le type diffusion disponible) ainsi que l'interactivité sont maintenus, tout en préservant un aspect essentiel pour l'utilisateur, la simplicité. L'interface et les options sont épurés, puis des solutions existent afin de proposer une expérience évolué avec une installation réduite. Le son 3D interactif est alors plus que jamais accessible. Mots clés: Fraunhofer, AAC, Objets, 15 Pistes, Simplicité, MHAPI, Sources: Orpheus-audio.eu aesfrance.info «Object Based audio comment et pourquoi?» Webinar MPEG-H Fraunhofer du 23 Avril au 12 Mai 32 L' AAC, également l'une des innovations de Fraunhofer, est réutilisée (entreprise que l'on connaît bien avec le projet Orpheus). Le débit s'apparente à 128 kbps pour un mix 5.1 et 64 kbps pour du stéréo (données techniques à différencier de la qualité subjective). Comme montré ci-dessous, l'étape d'authoring vient s'ajouter à la chaîne de production avec le format MPEG-H. L' Authoring: L'authoring est l'étape permettant de conformer le contenu en objet, de définir l'interactivité, les presets, mesurer le loudness, effectuer l'export,... Le format repose sur la méthode «bed+object» (comme le dolby atmos) qui sépare la scène sonore en deux types de son. Les «bed» représentent la base du contenu audio, c'est à dire les ambiances, les musiques, qui sont affiliées à une position précise et fixe (multicanal, 5.1, 7.1, 22.2, quad,...). Puis les objets représentent le reste de la scène sonore, donc les effets spéciaux, les voix par exemple, dont la position est variable (ou peut être changé par l'utilisateur). Mots clés: Fraunhofer, AAC, Objets, 15 Pistes, Simplicité, MHAPI, Sources: Webinar Fraunhofer «Hands on post-production for MPEG-H audio» le 27 Avril 2020 33 Ensuite les «Switch Group» servent à proposer un choix unique et non multiple à l'auditeur, en groupant un certain nombre d'objets ou scènes. Par exemple, le switch group sera nécessaire pour le choix des langues du contenu, pour ne pas choisir le français en même temps que l'anglais (figure 2.11). A partir de la différenciation des sons, il est possible de définir des presets, que l'utilisateur pourra sélectionner rapidement et simplement, selon ses besoins (figure 1.4). Trois presets sont recommandés (mais d'autres sont possibles avec des paramètres aux choix de l'ingénieur son, du réalisateur,...). Le premier est nommé «Default», comme son nom l'indique, ce sont les paramètres audio du contenu d'origine proposés par le mixeur son. Le second est nommé «Dialogue+». Si ce preset est sélectionné, la voix, les dialogues, sont automatiquement augmentés de 6 dB. Le troisième se nomme «Commentary OFF», il est donc dépourvu de voix, et seulement constitué des effets, de la musique, de l'ambiance,... (figure 2.11) Mots clés: Fraunhofer, AAC, Objets, 15 Pistes, Simplicité, MHAPI, Sources: Webinar Fraunhofer «Hands on post-production for MPEG-H audio» le 27 Avril 2020 34 Notons que sur chaque preset, l'utilisateur peut changer par lui même le volume, l'azimut et l'élévation du son dans les limites qui lui sont accordées. Ces nouvelles valeurs seront sauvegardées pour une prochaine utilisation. Ainsi, les principales fonctions du NGA importantes aux yeux des utilisateurs (la compréhension des 10 dialogues, le choix du format et la localisation) sont respectées, tout en restant simple et accessible pour tout utilisateur. «Dialogue Enhancements», une ancienne étude de 2011 menée par Fraunhofer sur les réglages audio choisis par les utilisateurs est très intéressante. L'ancêtre du MPEG-H, le MPEG4 AAC était utilisé lors d'un match de tennis de Wimbledon. Un curseur de mixage allant de la valeur «3» à «-3» est proposé aux auditeurs. La valeur «zéro» correspond mixage par défaut de l'ingénieur son, les valeurs positives privilégient les commentaires, tandis que les valeurs négatives les atténuent et donnent une priorité à l'ambiance du stade. Deux types de réglages se distinguent dans les résultats, 25% ont préféré le réglage «-1» (moins de commentaires), et environ 22% le réglage «2». Le mixage par défaut à été choisi à hauteur de 7%, et 14% n'ont pas de préférence. Cette petite expérience montre à quelle point le mixage est subjectif, différent pour chacun, et est un vrai casse tête pour l'ingénieur du son. Le MPEG-H est alors une belle proposition afin de résoudre ce problème. Mots clés: Fraunhofer, AAC, Objets, 15 Pistes, Simplicité, MHAPI, 10 Comme nous l'avons vu précédemment par exemple avec le sondage d'ORPHEUS sur le concept du NGA Sources: Webinar Fraunhofer «Hands on post-production for MPEGH audio» le 27 Avril 2020 https://tech.ebu.ch/docs/techreview/trev_2012-Q2_Dialogue-Enhancement_Fuchs.pdf 35 Post-Production Si il s'agit de diffuser un contenu enregistré (film, documentaire,...), un simple plugin de Fraunhofer nommé MHAPI est nécessaire à la conversion en format objet. Nous l'analyserons en partie 3 de ce mémoire. Événements en Live: Si il s'agit d'une diffusion Live (événement sportif, concert,...), les contraintes sont différentes et cela nécessite une configuration plus complexe afin d'obtenir les 11 mêmes résultats et fonctions, qu'avec un PAD utilisant le MPEG-H (interactivité, preset,...). L'ensemble des micros d'ambiance et de la matière sonore (commentaire, musique,...) est reçu dans un car régie, afin de mixer et faire l'authoring du contenu (même principe de ce que nous venons de voir). Deux outils Hardware et Software sont majoritairement utilisés pour l'authoring, chacun ayant une interface différente mais effectuant la même tâche: le Jünger MMA (Multichannel Monitoring and Authoring) et le Linear Acoustic AMS (Authoring and Monitoring System). L'interface utilisateur, les presets ainsi que l'interactivité, sont entièrement modifiables en temps réel. La synchronisation entre le son (avec les métadonnées) et la vidéo se font verticalement, par frame (50 fps), et peut être assurés jusqu'à -30dB. Lecteur MPEG-H: A ce jour, Fraunhofer fait des recherches sur un lecteur, car seul le hardware comme certaines télévisions ou barres de son (comme la «AMBEO» de Sennheiser» est capable de décoder, lire et profiter des avantages d'un contenu MPEG-H. Mots clés: Fraunhofer, AAC, Objets, 15 Pistes, Simplicité, MHAPI, Sources: Webinar Fraunhofer «Hands on post-production for MPEG-H audio» le 27 Avril 2020 11 Contenu «Près à diffuser». 36 Le décodeur MPEG-H (USAC pour Unified Speech and Audio Coding) prélève les éléments (figure 2.13), on retrouve ainsi les objets, fichiers ambisonique et basés canal. Les signaux «Channel Based» son transmis au mixer virtuel, convertit au bon format si besoin est. Les objets sont traités en fonction des metadatas et le système de spatialisation SAOC (Spatial Audio Object Coding). Les fichiers Ambisonique sont eux aussi, traités par un moteur de rendu. Ainsi, l'ensemble du contenu audio est adapté aux configurations de l'auditeur, avec de l'interactivité et de la personnalisation. Un moteur de rendu situé après le mixer permet la binauralisation avec une réponse impulsionnelle pour ajouter ou non de l'acoustique de pièce pour plus de réalisme. Pas d'information sur l'insertion de fichier .sofa ou l'intégration de plusieurs HRTF, donnant la possibilité la meilleure expérience 3D au casque selon les personnes (un bon compromis si il n'y a pas de créateur d'HRTF comme propose Sony en partie 2.5.1). Mots clés: Décodeur, Mixer, Moteur de rendu, Binaural, HRTF aesfrance.info «L'Approche Orienté Objet» mémoire de Florent Denizot, école Louis Lumière, 2016 37 |
|