Verbundvorhaben: Promise-AI - Nicht-invasive Stimmprothetik mittels Vokaltrakt-Radarsensorik und Echtzeit-AI-Sprachsynthese; Teilprojekt: KI-basierte Echtzeit-Übersetzung der Vokaltraktsignale in synthetische Sprache und Untersuchung des Mensch-Technik-Interfaces
Schlussbericht
Date
Editor
Advisor
Volume
Issue
Journal
Series Titel
Book Title
Publisher
Supplementary Material
Other Versions
Link to publishers' Version
Abstract
Das Verbundprojekt Promise-AI widmete sich einem grundlegend neuen Ansatz der Stimmrehabilitation, mit dem stimmlosen Menschen wieder zu einer natürlich klingenden, leicht erlernbaren Künstlichen Stimme verholfen werden soll. Dabei werden Artikulationsbewegungen des Sprechtrakts mit nicht-invasiver Radarsensorik erfasst und in Echtzeit verarbeitet. Mit einer zuvor trainierten KI wird dann natürlich klingende Sprache synthetisiert und mit minimaler Latenz über einen Lautsprecher ausgegeben. Im Projekt wurde zunächst in einem partizipativen Ansatz ein patienten- und alltagskonformes MTI-Konzept mit guter Trag- und Handhabbarkeit erarbeitet. Unter Nutzung speziell entwickelter Radarphantome wurde ein Messsystem entwickelt und für die Erhebung eines Trainingsdatensatzes aus Radar- und Audiodaten genutzt, mit denen anschließend echtzeitfähige KI-Algorithmen zur Übersetzung der gemessen Radarsignale in Sprachausgabe entwickelt und in einer Validierungsstudie erprobt wurden. Das Projekt legt das Fundament für ein radar-basierte Stimmprothese als neuem Medizinprodukt zunächst für kehlkopfoperierte Patienten, die sich vor allem durch gute Verständlichkeit, Natürlichkeit und schnelle Erlernbarkeit auszeichnet.
Datei-Upload durch TIB
The collaborative project Promise-AI investigated an fundamentally new approach to voice rehabilitation, helping voiceless people to regain a natural-sounding, easy-to-learn artificial voice. The concept is based on recording the articulation movements of the vocal tract using non-invasive radar sensors and processing these in real time. Natural-sounding speech is then synthesized with a previously trained AI and output with minimal latency via a loudspeaker. The project initially used a participatory approach to develop a patient-friendly HMI concept well-suited for everyday use that is easy to wear and handle. Using specifically developed radar phantoms, a measurement system was developed and used to collect a training data set consisting of radar and audio data, which was then used to develop real-time capable AI algorithms for translating the measured radar signals into speech output, subsequently tested in a validation study. The project lays the foundation for a radar-based voice prosthesis as a new medical device (initially targeted at laryngectomized patients), that is easy to learn and understand and natural-sounding.
