Verbundprojekt: "VoluProf: Photo und Audiorealistische*r Volumetrische*r Mixed Reality Professor*in für omnipräsente und nutzeroptimierte Lehre"; Teilprojekt: "Sprachsynthese zur Avatarvertonung und Spracherkennung zur Nutzer*inneninteraktion" - Förderprogramm: "VR/AR: digitale Gesellschaft"

dc.contributor.authorBenjamin, Körner
dc.date.accessioned2025-08-21T08:32:54Z
dc.date.available2025-08-21T08:32:54Z
dc.date.issued2025-08-20
dc.description.abstractZiel war die realistische Stimme des Avatars aus einem von dem/r Lehrenden bereitgestellten Text zu generieren. Dies sollte mit möglichst wenig Daten dieser Person machbar sein, sodass auf umfangreiche Sprachaufnahmen im Tonstudio verzichtet werden kann. Weiterhin war geplant zu untersuchen, inwiefern Sprachaufnahmen aus bisherigen Quellen hierzu genutzt werden können, z.B. aus schon aufgezeichneten Vorlesungen oder Vorträgen. Basierend auf einem maschinell trainierten Grundmodell der deutschen Sprache und den sprachlichen Merkmalen, welche anhand einzelner Aufnahmen extrahiert werden, sollte dazu aus textuellem Input “live” oder „offline” die Stimme für den Avatar synthetisiert werden. Für die Lippensynchronität des animierten Avatars war angedacht Ausspracheinformationen für den Inhalt der Vorlesung bereitzustellen werden. Diese könnten genutzt werden, um die Lippenbewegung an die tatsächlich gesprochenen Laute anzupassen. Das im Projekt entwickelte System sollte weiterhin hinsichtlich der Qualität der technischen Nutzer*innenerfahrung optimiert und evaluiert werden. Dazu sollten psychophysikalische Testverfahren für die Qualitätsbeurteilung von MR-Umgebungen entworfen und validiert werden. Auf Basis der entwickelten Testverfahren war geplant konstituierende Aspekte wahrgenommener Qualität in MR (etwa visueller Detailgrad, räumliches Audio, VR-Krankheit oder Immersionserfahrung) zu identifizieren. Der Einfluss und die Interaktion der Systemparameter (etwa Latenz, Kanalbreite oder Betrachtungsabstand) auf die wahrgenommene Qualität sollte zudem quantifiziert und zur Systemoptimierung genutzt werden. Die in kontinuierlichen Tests gewonnenen Daten qualitätsannotiertes Videomaterial) sollten dazu genutzt werden, um modell- und datengetriebene Methoden zur automatischen Qualitätsschätzung zu entwickeln. Des Weiteren sollte auch die Authentizität der generierten Stimme des Avatars durch subjektive Testverfahren untersucht werden.ger
dc.description.versionpublishedVersion
dc.identifier.urihttps://oa.tib.eu/renate/handle/123456789/21474
dc.identifier.urihttps://doi.org/10.34657/20491
dc.language.isoger
dc.publisherHannover : Technische Informationsbibliothek
dc.relation.affiliationAristech GmbH
dc.rights.licenseCreative Commons Attribution-NonDerivs 3.0 Germany
dc.rights.urihttps://creativecommons.org/licenses/by-nd/3.0/de/
dc.subject.ddc600
dc.titleVerbundprojekt: "VoluProf: Photo und Audiorealistische*r Volumetrische*r Mixed Reality Professor*in für omnipräsente und nutzeroptimierte Lehre"; Teilprojekt: "Sprachsynthese zur Avatarvertonung und Spracherkennung zur Nutzer*inneninteraktion" - Förderprogramm: "VR/AR: digitale Gesellschaft"ger
dc.title.subtitleSchlussbericht zum Verwendungsnachweis
dc.typeReport
dc.typeText
dcterms.event.date01.09.2021-28.02.2025
dcterms.extent17 Seiten
dtf.funding.funderBMFTR
dtf.funding.program16SV8708
dtf.funding.verbundnummer01235276
tib.accessRightsopenAccess

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Schlussbericht_VoluProf_16SV8708.pdf
Size:
197.7 KB
Format:
Adobe Portable Document Format
Description: