Verbundvorhaben: Promise-AI - Nicht-invasive Stimmprothetik mittels Vokaltrakt-Radarsensorik und Echtzeit-AI-Sprachsynthese; Teilprojekt: KI-basierte Echtzeit-Übersetzung der Vokaltraktsignale in synthetische Sprache und Untersuchung des Mensch-Technik-Interfaces

Schlussbericht

Loading...
Thumbnail Image

Editor

Advisor

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Hannover : Technische Informationsbibliothek

Supplementary Material

Other Versions

Link to publishers' Version

Abstract

Das Verbundprojekt Promise-AI widmete sich einem grundlegend neuen Ansatz der Stimmrehabilitation, mit dem stimmlosen Menschen wieder zu einer natürlich klingenden, leicht erlernbaren Künstlichen Stimme verholfen werden soll. Dabei werden Artikulationsbewegungen des Sprechtrakts mit nicht-invasiver Radarsensorik erfasst und in Echtzeit verarbeitet. Mit einer zuvor trainierten KI wird dann natürlich klingende Sprache synthetisiert und mit minimaler Latenz über einen Lautsprecher ausgegeben. Im Projekt wurde zunächst in einem partizipativen Ansatz ein patienten- und alltagskonformes MTI-Konzept mit guter Trag- und Handhabbarkeit erarbeitet. Unter Nutzung speziell entwickelter Radarphantome wurde ein Messsystem entwickelt und für die Erhebung eines Trainingsdatensatzes aus Radar- und Audiodaten genutzt, mit denen anschließend echtzeitfähige KI-Algorithmen zur Übersetzung der gemessen Radarsignale in Sprachausgabe entwickelt und in einer Validierungsstudie erprobt wurden. Das Projekt legt das Fundament für ein radar-basierte Stimmprothese als neuem Medizinprodukt zunächst für kehlkopfoperierte Patienten, die sich vor allem durch gute Verständlichkeit, Natürlichkeit und schnelle Erlernbarkeit auszeichnet.

Datei-Upload durch TIB


The collaborative project Promise-AI investigated an fundamentally new approach to voice rehabilitation, helping voiceless people to regain a natural-sounding, easy-to-learn artificial voice. The concept is based on recording the articulation movements of the vocal tract using non-invasive radar sensors and processing these in real time. Natural-sounding speech is then synthesized with a previously trained AI and output with minimal latency via a loudspeaker. The project initially used a participatory approach to develop a patient-friendly HMI concept well-suited for everyday use that is easy to wear and handle. Using specifically developed radar phantoms, a measurement system was developed and used to collect a training data set consisting of radar and audio data, which was then used to develop real-time capable AI algorithms for translating the measured radar signals into speech output, subsequently tested in a validation study. The project lays the foundation for a radar-based voice prosthesis as a new medical device (initially targeted at laryngectomized patients), that is easy to learn and understand and natural-sounding.

Description

Keywords

Keywords GND

Conference

01.08.2022-30.09.2024

Publication Type

Report

Version

publishedVersion

License

Creative Commons Attribution-NonDerivs 3.0 Germany