Die 3D-Audioproduktion für Virtual Reality – was man dazu wissen muss!

Der gute Ton im 3D-Raum: Exklusiver Gastbeitrag

3D-Audioproduktion für Virtual Reality: Gastbeitrag von Neil Raouf 3D-Audioproduktion für Virtual Reality: Gastbeitrag von Neil Raouf

Werden wir heute mit Begriffen wie Virtual Reality, Gear VR oder Play Station VR konfrontiert, denken die Allermeisten von uns an visuellen Content, der in einem dreidimensionalen Raum erlebbar ist. Die Minderheit wird dabei an die akustische Kulisse und die 3D-Audioproduktion denken. Und genau darüber handelt dieser Artikel von Neil Raouf: Über die Möglichkeiten der Audioproduktion für den dreidimensionalen Raum.

Diese Zeilen basieren auf Erfahrungen, welche ich im letzten Jahr auf diesem Gebiet sammeln durfte. Aus Virtual Reality Projekten, bei welchen ich als Sound Designer beteiligt war, an vielen Stunden, welche ich in Internet-Foren für 3D-Audioproduktion und -technologie verbracht habe sowie an zahlreichen 360°/VR-Produkten, welche ich mir angesehen, bzw. angehört habe. Es geht also um 3D-Audio, Spatial Audio, responsive Audio und Konsorten.

Der akustische 3D-Raum

Drei Dimensionen verlangen bei der Virtual Reality nach drei Achsen (x, y und z). Man kann ein Geräusch also links/rechts (x), oben/unten (y) oder vorne/hinten (z) platzieren. Dabei kann ein Sound nicht nur an einem Ort im Raum ertönen, er kann sich auch über Zeit zwischen verschiedenen Punkten bewegen. Zudem existiert eine weitere Achse, ‚w’ genannt. Sie dient dazu sog. omnidirektionale, also bewegungsunabhängige Inhalte wiederzugeben. Dabei handelt es sich zum Beispiel um Musik oder um eine Off-Stimme. Elemente, dessen Klangeigenschaften nicht an die Bewegungen des Betrachters gebunden sind.

Der absolute USP bei der 3D-Audioproduktion ist meiner Meinung nach die Möglichkeit, die Geräuschkulisse in Echtzeit an Bewegungen zu koppeln. Somit garantiert dieses Sound Design ein ‚Mittendrin-statt-nur-dabei-Erlebnis’ der Spitzenklasse.

Kurzer AV-Crashkurs

Zuerst einmal: AV-Medien sind ja bekanntlich audiovisuelle Medien, bestehend aus einer sichtbaren und einer hörbaren Komponente. Also steuert jede Komponente 50% zum Gesamterlebnis bei. Ob im zwei- oder dreidimensionalen Raum, ist dabei erst Mal egal. Dieser Fakt ist unabhängig von Dimensionen und zeigt auf, welches Potential der akustische Content tatsächlich hat.

TV, Kino (auch 3D-Kino, mit den lustigen Papier-Brillen) und Web waren bis dahin visuell in 2D (Kinoleinwand, Bildschirm) geniessbar. Audiotechnisch hiess dies in den meisten Fällen Stereo-Wiedergabe. Diese ist eine Audiodatei mit zwei Kanälen (links/rechts). Also eigentlich einer „1D“-Audiowiedergabe (links-rechts) und einer 2D-Bildwiedergabe (links/rechts, oben/unten).

Virtual Reality: Mehr als nur Stereo (oder Dual Mono)

Im Kino kommt die Mehrkanalwiedergabe, wie z.B. 5.1, dazu. Dabei handelt es sich um ein System mit drei Lautsprecher vor dem Betrachter, (links, rechts und Mitte), zwei hinter dem Betrachter (links und rechts) sowie dem Lautsprecher eigens für die ganz tiefen Frequenzen, für welches das ‚.1’ in der Bezeichnung steht. Dabei handelt es sich also dann um eine Art 2D-Klangwiedergabe, nämlich links/rechts und vorne/hinten.

3D Audio-Wiedergabe über Lautsprechersysteme im (Wohnzimmer- und) Kinoformat hat sich bisher noch nicht kommerziell durchgesetzt. Aus verständlichen Gründen: Sie ist noch zu hardwareintensiv, zu komplex. Die Dolby-Technologie hierfür existiert jedoch, ist in rasanter Weiterentwicklung und nennt sich ‚Atmos’. Hierbei handelt es sich um ein Format, welches theoretisch über eine unbegrenzte Anzahl an Kanälen verfügt. Möglich sind z.B. 128 Tonspuren mit 64 Ausgängen. Also 64-fachen Stereo oder 64.1. Die Lautsprecher werden in einer Kugelform ‚um den Betrachter herum’ aufgebaut.
Dieses Erlebnis muss unter den richtigen Gegebenheiten ‚mind blowing’ sein.

Bis heute sind es wenige Kinos und Audiopost-Studios weltweit, welche mit dieser Technologie für 3D-Audioproduktion ausgestattet und zertifiziert sind. Der kanadische Musiker und Produzent Joel Zimmermann (Deadmau5), ließ sich in Toronto eines der ersten Dolby Atmos-zertifizierten privaten Tonstudios auf den Leib schneidern. Ja…warum auch nicht?!

Oder doch nur Stereo?

Zurück zu den kommerziell und materiell realistischen Möglichkeiten im Bereich des 3D-Audio und der 3D-Audioproduktion für Virtual Reality. Egal ob mit Smartphone, Gear oder Desktop-Compi: 360°-Filme mit einer dafür geschaffenen Klangkulisse sind unbedingt mit Kopfhörern zu genießen.

Vorschaubild'In eisigen Tiefen'. 360° Spatial Sound Design und Mix von Neil Raouf.

Video: ‚In eisigen Tiefen‘. 360° Spatial Sound Design und Mix von Neil Raouf. Um den 360-Sound-Effekt zu erleben beim Ansehen des Videos bitte Kopfhörer benutzen!


Kopfhörer sind jedoch Geräte für die Stereowiedergabe. Also nur links/rechts. Wie bitte soll denn damit der dreidimensionale Raum klanglich reproduziert werden? Die Antwort liefert uns unser Körper selbst. Denn unsere Ohren funktionieren ja nach dem Stereo-Prinzip. Eines auf der linken und eines auf der rechten Seite. Und trotzdem ermöglicht es uns, die Geräusche räumlich und zeitlich einzuordnen.

Genau dieser Prozess wird im 3D-Audio simuliert. Dabei arbeitet man für die 3D-Audioproduktion jedoch mit Audiodateien, welche acht Tonspuren aufweisen. Also 8.0. Viermal Stereo resultiert daraus – eine Stereo-Spur für jede Achse (w, x, y und z). Diese Datei (am besten ein .wav mit einer Samplerate von 48kHz und einer 24 Bit-Auflösung) beinhaltet zudem alle Metadaten zu den Geräuschen und deren räumlichen Position, welche für die Echtzeitanpassung der Klangkulisse verantwortlich sind.

Ein sog. ‚responsive’ Website, passt sich auf das jeweilige Gerät an. Den Begriff finde ich treffend, um die das AV-Erlebiss bei Virtual Reality/360°-Produktionen zu beschreiben. Denn Bild und Ton reagieren auf die Bewegungen des Betrachters, sind also ‚responsive’. Die Klangkulisse soll sich also mit einer möglichst geringen Latenz stetig anpassen und der perfekten räumlichen Klangerfahrung, wie wir sie alle ‚analog’ im Alltag erleben, nahe kommen.

3D-Audioproduktion: Die Technologie und der Markt

Im dreidimensionalen Sound Design, nennt man diese Art von Audio-Wiedergabe real-time binaural audio. Die Kopfbewegungen und die daraus resultierenden akustischen Konsequenzen, werden in der Fachsprache unter dem Begriff HRTFs (Head Related Transfer Functions) zusammengefasst.

Sogenannt ‚binaurale’ Audiodateien, welche eben alle diese HRTF-Informationen als Metadaten enthalten, haben sich im sog. ‚B-Fomat’ mit den beiden leicht unterschiedlichen Typen ‚AmbiX’ und ‚FuMa’ etabliert und . Techgiganten wie Samsung, Facebook oder Google samt Youtube und Android , unterstützten (und wie wir weiter unten lesen werden: Entwickeln) diese Audio-Technologien. Vimeo funktioniert (noch) nicht mit Spatial Audio. Ich hoffe hierbei natürlich auf ein baldiges Upgrade

Die Produktion

Am Set und in der Post arbeite ich für die 3D-Audioproduktion häufig mit der Crew von Avocado360 rund um Urs Wyss sowie dem DOP Christian Mühlhauser zusammen. Leute, welche zum Glück eine sehr gute Kenntnis über die Audiotechnolgie und deren Relevanz im Film aufweisen, sowie ‚Virtual Reality/360’-People der ersten Stunde sind. Langsam aber sicher wissen wir, wie es etwa gehen kann, bei der Produktion von Virtual Reality-Content. Einer neuen Art der audiovisuellen Medien. Dies spart Zeit und Nerven. Über einen gewissen Pioniergeist zu verfügen, hilft sicherlich auch dabei.

Grundsätzlich unterteile ich den akustischen Inhalt in drei Kategorien: Ambi (Nebengrund) , Nebengeräusche (Hintergrund) und Hauptgeräusche (Vordergrund). Genau diese Elemente werden dann entweder am Set aufgezeichnet oder in der Post durch bereits vorhandene Elemente hinzugefügt.

Ich arbeitete bis jetzt stets ohne 3D-Mikrophone (Sennheiser AMBEO etc.), sondern habe Stimmen und Geräusche via Funk oder Richtrohr in normalem Stereo oder Mono (.wav, 48kHz/24 Bit) aufgezeichnet. Festgehalten habe ich die Aufnahmen stets mit einem Fieldrecorder (Zoom H4 und H5) oder einem USB-Interface direkt in den Laptop.

VorschaubildUBS Optimus Foundation. 360° Spatial Sound Design und Mix von Neil Raouf

Video: UBS Optimus Foundation. 360° Spatial Sound Design und Mix von Neil Raouf. Um den 360-Sound-Effekt zu erleben beim Ansehen des Videos bitte Kopfhörer benutzen!


Zuerst werden Kamera und Ton für jedes Take synchronisiert. Dies geschieht durch eine laute und deutliche Ansage der Szene und des Takes mit dem anschließenden Klappenschlag. Das kameraeigene Mikrophon ist dabei eingeschaltet und der Eingangspegel soweit aufgerissen, dass die Ansage und der Klappenschlag deutlich zu hören sind.

Das Audio direkt in die Kamera aufzunehmen, erweist sich im 360°-Bereich als Problem. Denn man kann keine Kabel hinter (ja wo ist denn jetzt hinten?) der Kamera verstecken. Und die (manchmal zahlreichen)Funkempfänger der Lavalier-Mikrophone würden für Chrigu mühsames retouchieren in der Post bedeuten. Sowieso heisst es für alle nicht-schauspielernden Crewmembers stets, in Deckung, resp. irgendwie aus dem riesigen Aufnahmefeld des Kamerasystems zu gehen

Die Postproduktion

Sobald wir uns in der Postproduktion befinden, wird das Bild mit dem ‚richtigen’ Ton unterlegt und im PremierePro geschnitten. Als nächster Schritt, erhalte ich vom Cutter eine .omf -Datei, welche ich dann in meiner DAW (Digital Audio Workstation) samt dem Filmmaterial öffne. Also bisher nichts Besonderes. In der DAW – in meinem Falle ProTools HD – findet dann die ‚Transformation’ von normalem Mono-, bzw. Stereomaterial in Spatial Audio statt. Möglich ist es natürlich auch, ein Sound Design vorzunehmen, bei welchem alle Geräusche erst in der Postproduktion hinzukommen.

Das Ziel ist es, jeden Sound bestmöglich im Raum zu platzieren. Dabei ist es wichtig, an die verschiedenen Geräuschtypen und ihr Klangverhalten zu denken: Atmo ist ‚allesumschliessend’ und eher unauffällig, während die sonstigen Geräusche im Vordergrund stehen und räumlich und zeitlich sehr spezifisch reagieren. Bei meiner Arbeit in der Audiopost habe ich gemerkt, dass sich der Herangehens-Prozess grob in vier Fälle unterteilen lässt. Dabei geht es darum, wie sich Betrachter und Umgebung beeinflussen können:

Erstens: Ich bleibe an Ort und Stelle, die Objekte bewegen sich um mich herum.

Zweitens: Ich bewege mich, die Objekte um mich herum bewegen sich nicht.

Drittens: Ich bewege mich, die Objekte bewegen sich auch.

Viertens: Varianten eins, zwei und drei kombiniert.

Auf die ganz technischen Details der akustischen Postproduktion für Spatial Audio, möchte ich an dieser Stelle nicht eingehen. Nur soviel soll gesagt sein: Die Technik, mit seiner ganzen Komplexität soll nur dazu beitragen, dass die akustische Seite des AV-Produkts 50% des Gesamterlebnisses ausmacht. Ich sehe dies vielmehr als eine künstlerische, als eine technische Herausforderung. Denn niemand wird sich den Film ansehen und sagen: «Wow, der dynamische EQ auf dem HMF-Band im Masterbus ist ja klasse. Vor allem auf der z- und y-Achse…».

Ein interessantes Detail: Die Software (360 Spatialiser) der Firma ‚Two Big Ears’, welche mir ein Sound Design sowie die Tonmischung in 3D-Audio ermöglicht, wurde vor einiger Zeit von Facebook aufgekauft. Dabei entschied man sich, die Software gratis ins Netz zu stellen und sie für drei verbreitete DAWs (ProTools, Reaper und Nuendo) freizugeben. Im dafür geschaffenen Facebook-Forum, tauschen sich zur Zeit über 4000 Sound Designer, Toningenieure und sonstige Audionerds aus der ganzen Welt über die Audioproduktion im 3D-Bereich aus. Betrieben wird das Ganze natürlich von den verantwortlichen Entwicklern und Product Manager höchstpersönlich. Facebook gewinnt dadurch natürlich einen enorm praxisbezogenen Input über das Produkt. Win-Win.

VorschaubildAvocado360 Showreel. 360° Spatial Sound Design und Mix von Neil Raouf.

Video: Avocado360 Showreel. 360° Spatial Sound Design und Mix von Neil Raouf. Um den 360-Sound-Effekt zu erleben beim Ansehen des Videos bitte Kopfhörer benutzen!


Verwendungszwecke von VR/360

Ein unglaubliches Potential sehe ich für die 3D-Audioproduktion vor allem im Marketing-Bereich. Stell dir vor, du gehst als Aussteller an eine Messe und hast einen tollen VR-Film im Gepäck. Im besten Fall hast du auch noch fünf oder sechs (Samsung) Gear VR-Sets (ausgestattet mit Kopfhörern!) mit dabei. Damit lädst du die Besucher deines Standes ein, deine Message dreidimensional aus nächster Nähe zu erleben. Dies gilt für eine Tourismusregion genauso, wie für ein Unternehmen aus der Techbranche.

Jedoch kann dasselbe Szenario auch bei einem Verkaufsgespräch stattfinden: Potentiellen Investoren oder Partner, kann somit eine Idee auf einer emotional neuen Ebene verkauft werden: Mittendrin, statt nur dabei.

Ein anderes Kapitel sind Videospiele sowie Spiel- und Kurzfilme für Virtual Reality. Ich hoffe, bald auch in diesem Bereich aktiv zu werden. Jedoch muss vor allem im Filmbereich, vor allem das Konzept ‚Storytelling’ völlig neu überdacht werden. Denn seit wir unsere Geschichten auf Kalksteinwände von Höhlen malen oder mit der Kamera einfangen, sind wir uns an zwei Dimensionen gewohnt. Man gibt dem Betrachter das Blickfeld vor und leitet somit auch die Dramaturgie. Was ist sichtbar/unsichtbar, hörbar/unhörbar?

Lädt man die 360-Produktion auf Youtube oder Facebook, würde ich dazu raten, den Betrachter im Beschrieb oder via Thumbnail explizit zum Gebrauch von Kopfhörern aufzufordern. Denn 3D-Audio funktioniert nun wirklich nicht gut über die Lautsprecher vom iPhone. Verbindet man es jedoch mit den Kopfhörern, kann man sich das Video bequem via Youtube- oder Facebook-App ansehen, resp. anhören. Einfach Vollbild-Modus einschalten und das Smartphone (oder Tablet) bewegen. Schon funktioniert das responsive AV-Erlebnis in seiner ganzen Pracht.

Nun bedanke ich mich, dass Du bis zu dieser Stelle gelesen hast. Spannend, mit was uns die Technologie wieder einmal auf Trab hält. Dabei sind wir visuell im Bereich Virtual Reality (VR) erst am Anfang (in der 3D-Audioproduktion sowieso). Doch mit jedem Projekt werden wir, die Technologie und auch die Zuschauer besser.


Im Interesse der Lesbarkeit werden in diesem Artikel die Berufsbezeichnungen auf die männliche Form reduziert. Gemeint sind immer Frauen und Männer |  © Artikel Filmpuls & Neil Raouf

Über Neil Raouf

Neil Raouf (31) aus Meiringen BE ist Sound Designer und Komponist. Nils lebt heute in der Nähe von Zürich. Schon als Teenager nervte es ihn, dass seine Musik nach einer Aufnahme anders klang. Dies war der Startschuss um sich auch ausgiebig mit der technischen Seite der Audioproduktion zu beschäftigen. Während seiner Zeit an der Fachhochschule (Bsc in Multimedia Production) wurde ihm klar, wie unendlich wichtig guter Audiocontent ist und wie sträflich dieser oft vernachlässigt wird. Der Leitfaden von Neil Raouf ist einfach: Es muss großartig klingen – ob Zugposaune oder Bachplätschern. Kontact: neil(at)mera.film.

Filmpuls geben

E-Mail Adresse wird nicht veröffentlicht.


*