Deep Speech Representation Learning for Research in Phonetics

Häb-Umbach, Reinhold; Wagner, Petra

doi:https://doi.org/10.34657/29322

Deep Speech Representation Learning for Research in Phonetics

Final Report on DFG Project

Files

final_report_deep_phonetics_public_part.pdf (297.65 KB)

Date

2026-02-09

Authors

Häb-Umbach, Reinhold

Wagner, Petra

Publisher

Hannover : Technische Informationsbibliothek

Abstract

The speech signal is a rich source of information that conveys not only linguistic but also extra/paralinguistic information, such as the speaker’s identity, gender, emotional state, age. However, those traits are hidden in complex, non-transparent variations of the speech signal. With recent progress in speech synthesis and voice conversion caused by the advent of deep generative modeling, we argued at the time of writing the proposal that synthesized speech can (again) become a valuable tool for research in phonetics. The overarching goal of this project was thus to explore the potential of deep generative modeling of individual dimensions of speech as a tool to support research in phonetics. While the initial choice to adopt an encoder-decoder architecture with the targeted manipulation done in the latent embedding space turned out to be appropriate, progress in the field led to a continuous adjustment of the work packages to the current state of the art. At first, the basic architectural choice for voice conversion was the variational autoencoder (VAE). We extended the factorized VAE, which we had developed at the time of writing the proposal [O1], to enable adaptation of the speaking rate to that of the target speaker. This adaptation led to higher voice similarity between a synthesized and target speaker [1]. However, more recent generative models were reported to be superior. In a joint effort with the project TRR318 (project C06), we thus developed a synthesis system based on normalizing flows, leading to higher quality speech samples. [2], [3]. Disentangling sources of variation of the speech signal was considered an important task to be able to generate speech signals with desired properties. While the disentanglement of high-level factors of variation, i.e., content vs speaker induced variations [1], and even a separation of speaker from environment or emotion related variations was possible [4], a more fine-grained disentanglement of voice properties turned out to be infeasible [5]. Furthermore, the quality of the artificially produced speech samples needed to be adequately assessed. To address this issue, we carried out user studies to determine the dimensions of perceived quality and similarity of utterances produced by Text-to-Speech (TTS) and voice conversion (VC) systems[1], [6], [7]. Furthermore, we developed an approach towards the prediction mean opinion scores (MOSs) at a higher temporal resolution to pinpoint problematic areas within the signal. [8]. The main project results can be summarized as follows • We developed a fully unsupervised any-to-any voice conversion system with the speaking rate adapted to the target speaker’s rate. It clearly outperformed the then state-of-the-art any-to-any VC system AutoVC [O2]. • We investigated the speaker embedding vector computed by a VAE w.r.t. disentanglement, both supervised (using acoustic features as proxies for the true but unknown factors of variation), and unsupervised (using information-theoretic measures). We found that disentanglement could be improved by wisely choosing the parameters of a β-VAE and a Total Correlation VAE (TCVAE). • We distinguished new perceptual dimensions for modern state-of-the-art speech synthesis models and investigated their correlation to acoustic parameters as well as the ability to elicit them in the time domain. • As a first step towards automatic subjective speech quality assessment with frame-level resolution we developed a predictor to find segments of low speech quality.

Das Sprachsignal ist eine reichhaltige Informationsquelle, die nicht nur sprachliche, sondern auch außer- bzw. parasprachliche Informationen wie Identität, Geschlecht, emotionalen Zustand oder Alter vermittelt. Diese Merkmale sind jedoch in komplexen, nicht transparenten Variationen des Sprachsignals verborgen. Mit den jüngsten Fortschritten in der Sprachsyntheseforschung, insbeson- dere durch das Aufkommen von tiefen generativen Modellen, haben wir zum Zeitpunkt der Erstel- lung des Antrags argumentiert, dass synthetisierte Sprache (wieder) ein wertvolles Werkzeug für die phonetische Forschung werden kann. Das übergreifende Ziel dieses Projekts war es, das Potenzial der tiefen generativen Modellierung von einzelnen Dimensionen gesprochener Sprache als Werkzeug zur Unterstützung der Phonetikforschung zu erkunden. Während sich die anfängliche Entscheidung für eine Encoder-Decoder-Architektur mit der gezielten Manipulation im latenten Raum als sinnvoll erwies, führte die Entwicklung in diesem Forschungsfeld zu einer kontinuierlichen Anpassung der Projektarbeit an den aktuellen Forschungsstand. Wir erweiterten den faktorisierten variational autoencoder (VAE), den wir zum Zeitpunkt der Erstellung des Antrags [O1] entwickelt hatten, um die Möglichkeit der Anpassung der Sprechgeschwindigkeit, was zu einer höheren Ähnlichkeit des modifizierten Sprachsignals zum Ziel- sprecher führte [1]. Als es sich herausstellte, dass neuere generative Modelle eine bessere Qualität erzielen können, entwickelten wir mit einem benachbarten Projekt (TRR318, Projekt C06) da- her ein Sprachsynthesesystem, das auf Normalizing Flows basiert. Dieses System kann einzelne Stimmqualitätsparameter bei hoher Qualität graduell verändern [2], [3]. Die Entflechtung von Variationsquellen im Sprachsignal ist ein Kernproblem für eine gezielte Modifikation: Während die Entflechtung übergeordneter Variationsfaktoren, d.h. inhaltliche vs. sprecherinduzierte Variationen [1], und sogar eine Trennung von sprecher- und umgebungs- bzw. emotionsbedingten Variationen möglich war [4], erwies sich eine feinkörnigere Entflechtung von Stimmeigenschaften aufgrund ihrer extrem verschränkten Repräsentation im “Speaker Embedding” Vektor [5] als nicht durchführbar. Weiterere Forschungen widmeten sich der Messung der Qualität von künstlich erzeugten Sprach- proben, um ihre Nutzbarkeit für die Phonetikforschung erfassen zu können. Hierfür haben wir Wahrnehmungsstudien durchgeführt, um die Dimensionen der wahrgenommenen Qualität und Ähn- lichkeit von Äußerungen zu bestimmen, die von Sprachsynthese- und Sprachkonversionssystemen produziert wurden. Außerdem haben wir einen Ansatz entwickelt mit dem Ziel, “Mean Opinion Scores” (MOS) mit höherer zeitlicher Auflösung erzeugen zu können, um einzelne problematische Bereiche innerhalb des Signals aufzeigen [8]. Die wichtigsten Projektergebnisse lassen sich wie folgt zusammenfassen • Wir haben ein vollständig unüberwachtes Any-to-Any-Voice Conversion System entwickelt, bei dem die Sprechgeschwindigkeit an die einer Zielstimme angepasst ist. Es übertraf deutlich das damals aktuelle Any-to-Any-VC-System AutoVC [O2]. • Wir untersuchten den von einem VAE berechneten speaker embedding vector im Hinblick auf die Entflechtung, sowohl überwacht als auch unüberwacht Wir fanden heraus, dass die Entflechtung durch eine kluge Wahl der Parameter einer β-VAE und einer Total Correlation VAE (TCVAE) verbessert werden kann. • Wir haben neue Wahrnehmungsdimensionen für moderne Sprachsynthesemodelle unter- schieden und ihre Korrelation mit akustischen Parametern sowie die Fähigkeit, diese im Zeitbereich zu bestimmen, untersucht. • Als einen ersten Schritt in Richtung einer automatischen Schätzung der Sprachqualität mit Auflösung auf Frame-Ebene haben wir einen Prädiktor entwickelt, um Segmente mit niedriger Sprachqualität im Sprachsignal zu finden.

Keywords

speech representation learning, speech analysis, phonetics, speech perception, speech quality perception

Publication Type

Report

Version

publishedVersion

URI

https://oa.tib.eu/renate/handle/123456789/30253
https://doi.org/10.34657/29322

Collections

Forschungsberichte ohne Pflichtabgabe (DFG, IGF…)

License

This document may be downloaded, read, stored and printed for your own use within the limits of § 53 UrhG but it may not be distributed via the internet or passed on to external parties.
Es gilt das deutsche Urheberrecht. Das Werk bzw. der Inhalt darf zum eigenen Gebrauch kostenfrei heruntergeladen, konsumiert, gespeichert oder ausgedruckt, aber nicht im Internet bereitgestellt oder an Außenstehende weitergegeben werden.

Full item page

Deep Speech Representation Learning for Research in Phonetics

Files

Date

Authors

Editor

Advisor

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Supplementary Material

Other Versions

Link to publishers' Version

Abstract

Description

Keywords

Keywords GND

Conference

Publication Type

Version

URI

Collections

License