Verbundprojekt: "VoluProf: Photo und Audiorealistische*r Volumetrische*r Mixed Reality Professor*in für omnipräsente und nutzeroptimierte Lehre"; Teilprojekt: "Sprachsynthese zur Avatarvertonung und Spracherkennung zur Nutzer*inneninteraktion" - Förderprogramm: "VR/AR: digitale Gesellschaft"

Loading...
Thumbnail Image

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Hannover : Technische Informationsbibliothek

Link to publishers version

Abstract

Ziel war die realistische Stimme des Avatars aus einem von dem/r Lehrenden bereitgestellten Text zu generieren. Dies sollte mit möglichst wenig Daten dieser Person machbar sein, sodass auf umfangreiche Sprachaufnahmen im Tonstudio verzichtet werden kann. Weiterhin war geplant zu untersuchen, inwiefern Sprachaufnahmen aus bisherigen Quellen hierzu genutzt werden können, z.B. aus schon aufgezeichneten Vorlesungen oder Vorträgen. Basierend auf einem maschinell trainierten Grundmodell der deutschen Sprache und den sprachlichen Merkmalen, welche anhand einzelner Aufnahmen extrahiert werden, sollte dazu aus textuellem Input “live” oder „offline” die Stimme für den Avatar synthetisiert werden. Für die Lippensynchronität des animierten Avatars war angedacht Ausspracheinformationen für den Inhalt der Vorlesung bereitzustellen werden. Diese könnten genutzt werden, um die Lippenbewegung an die tatsächlich gesprochenen Laute anzupassen. Das im Projekt entwickelte System sollte weiterhin hinsichtlich der Qualität der technischen Nutzer*innenerfahrung optimiert und evaluiert werden. Dazu sollten psychophysikalische Testverfahren für die Qualitätsbeurteilung von MR-Umgebungen entworfen und validiert werden. Auf Basis der entwickelten Testverfahren war geplant konstituierende Aspekte wahrgenommener Qualität in MR (etwa visueller Detailgrad, räumliches Audio, VR-Krankheit oder Immersionserfahrung) zu identifizieren. Der Einfluss und die Interaktion der Systemparameter (etwa Latenz, Kanalbreite oder Betrachtungsabstand) auf die wahrgenommene Qualität sollte zudem quantifiziert und zur Systemoptimierung genutzt werden. Die in kontinuierlichen Tests gewonnenen Daten qualitätsannotiertes Videomaterial) sollten dazu genutzt werden, um modell- und datengetriebene Methoden zur automatischen Qualitätsschätzung zu entwickeln. Des Weiteren sollte auch die Authentizität der generierten Stimme des Avatars durch subjektive Testverfahren untersucht werden.

Description

Keywords

License

Creative Commons Attribution-NonDerivs 3.0 Germany