SEMULIN - Selbstunterstützende Multimodale Interaktion

Loading...
Thumbnail Image

Date

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Hannover : Technische Informationsbibliothek

Link to publishers version

Abstract

The SEMULIN (Self-Supporting Multimodal Interaction) project was concerned with the development of a self-supporting, natural and consistent human-machine interface for automated driving vehicles using multimodal input and output concepts. Various intelligent subsystems such as ultrasound and camera-based gesture recognition, facial expression and speech-based emotion recognition, eye movement registration and speech recognition were integrated as input modalities. By combining these modalities with the help of rules and artificial intelligence, the user's intention could be determined both directly and indirectly. The output was provided via audio, displays and ambient lighting. The Fraunhofer IIS contributed in particular to the following: • Provision of intelligent subsystems for the technology stack. o Audio signal processing of microphone arrays. o Low-delay source separation of audio signals for two speakers. o Automatic speech recognition. o Speaker recognition based on speech: combination of multichannel and single-channel methods for source separation with real-time speaker recognition. o The SHORE library for facial expression recognition includes the classification of emotions such as Happy, Sad, Angry, Surprised, Neutral, Disgusted, and Frightened. In addition, it includes gender and age recognition. • Provision of an Intelligence Cluster, which serves to identify the intentions of actions in order to evoke an appropriate response. In doing so, machine learning methods were combined with models and methods from psychology. The Fraunhofer IIS contributed to: o Emotion recognition: fusion of audio- and speech-based emotion recognition. o Age estimation: fusion of audio- and speech-based age estimation. o Intention recognition: development of a machine learning model for recognizing intentions from multimodal sensor sources


Das Projekt SEMULIN (Selbstunterstützende Multimodale Interaktion) befasste sich mit der Entwicklung einer selbstunterstützenden, natürlichen und widerspruchsfreien Mensch-Maschine-Schnittstelle für automatisiert fahrende Fahrzeuge mittels multimodaler Ein- und Ausgabekonzepte. Dazu wurden verschiedene intelligente Subsysteme wie ultraschall- und kamerabasierte Gestenerkennung, mimik- und sprachbasierte Emotionserkennung, Blickbewegungsregistrierung und Spracherkennung als Eingabemodalitäten integriert. Durch die Kombination dieser Modalitäten mit Hilfe von Regeln und künstlicher Intelligenz konnte die Intention des Benutzers sowohl direkt als auch indirekt ermittelt werden. Die Ausgabe erfolgte über Audio, Displays und Umgebungsbeleuchtung. Das Fraunhofer IIS beteiligte sich hierbei insbesondere an: • Bereitstellung intelligenter Teilsysteme für das Technology Stack o Audiosignalverarbeitung von Mikrofonarrays. o Low-delay Quellentrennung von Audiosignalen für zwei Sprecher. o Automatische Spracherkennung. o Sprachbasierte Sprechererkennung: Kombination von mehrkanaligen und einkanaligen Verfahren zur Quellentrennung mit Echtzeit-Sprechererkennung. o Die Bibliothek SHORE zur Mimikerkennung umfasst die Klassifikation von Emotionen wie Happy, Sad, Angry, Surprised, Neutral, Disgusted und Frightened. Darüber hinaus beinhaltet sie die Erkennung von Geschlecht und Alter. • Bereitstellung eines Intelligence Clusters, welches zur Identifizierung der Handlungsabsichten dient, um eine möglichst adäquate Reaktion zu evozieren. Hierbei wurden Verfahren des maschinellen Lernens mit Modellen und Methoden aus der Psychologie verknüpft. Das Fraunhofer IIS beteiligte sich dabei an: o Emotionserkennung: Fusion von audio- und sprachbasierter Emotionserkennung. o Altersschätzung: Fusion von audio- und sprachbasierter Altersschätzung. o Intentionserkennung: Entwicklung eines Machine-Learning-Modells zur Erkennung von Handlungsabsichten aus multimodalen Sensorquellen

Description

Keywords

License

Creative Commons Attribution-NonDerivs 3.0 Germany