FLACA: Few-shot learning for automated content analysis in communication science; Teilvorhaben: Bringing few-shot learning to communication science

Schlussbericht zum Verwendungsnachweis für das Verbundprojekt

Loading...
Thumbnail Image

Editor

Advisor

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Hannover : Technische Informationsbibliothek

Supplementary Material

Other Versions

Link to publishers' Version

Abstract

Das Verbundprojekt Few-Shot Learning for Automated Content Analysis in Communication Science (FLACA) verfolgte das Ziel, aktuelle Entwicklungen aus dem Natural Language Processing für die automatisierte Inhaltsanalyse in der Kommunikationswissenschaft nutzbar zu machen. Ausgangspunkt war die Beobachtung, dass die stetig wachsende Menge digital verfügbarer öffentlicher Kommunikation klassische Formen manueller Inhaltsanalyse an Skalengrenzen führt, während zugleich neuere Verfahren auf Basis vortrainierter Sprachmodelle, wie beispielsweise Argument Mining, die automatische Erfassung semantisch komplexer Kategorien mit vergleichsweise wenig Trainingsdaten in Aussicht stellen. FLACA setzte sich daher zum Ziel, diese methodischen Entwicklungen systematisch auf die Anforderungen kommunikationswissenschaftlicher Forschung zu übertragen und daraus wissenschaftliche, methodische und didaktische Ergebnisse und “good practices” für die Fachcommunity abzuleiten. Im Projektverlauf erwies sich dieses Ziel als hoch anschlussfähig, musste jedoch unter veränderten technologischen Bedingungen konkretisiert werden. Während der Antrag noch stark von der Frage geprägt war, wie sich Few-Shot-Fine-Tuning kleiner transformerbasierter Sprachmodelle für die Inhaltsanalyse einsetzen lässt, veränderte der rasche Aufstieg großer Sprachmodelle (z.B. GPT-3.5 und Nachfolgemodelle) die Ausgangslage frühzeitig. Das Projekt reagierte darauf mit einer methodischen Erweiterung: Statt ausschließlich effiziente Fine-Tuning-Verfahren für Small Language Models zu optimieren, wurde der systematische Vergleich von SLM- und LLM-basierten Ansätzen selbst zu einem zentralen Gegenstand des Vorhabens. Parallel dazu konzentrierte sich die empirische Arbeit auf zwei Fallstudien: erstens die Nachrichten- und Mediendebatte über deutsche Waffenlieferungen an die Ukraine als Hauptfall, zweitens die Atomenergiedebatte in sozialen Medien als ergänzenden Fall zur Untersuchung langfristiger diskursiver Verschiebungen. Der vorliegende Bericht stellt wesentliche Ergebnisse vor und erläutert, wie diese zu den zentralen Zielen der „Richtlinie zur Förderung von Projekten zur Stärkung der Datenkompetenzen des wissenschaftlichen Nachwuchses“ (DKWN) des BMFTR (ehem. BMBF) beitragen.

Description

Keywords GND

Conference

Publication Type

Report

Version

publishedVersion

License

Creative Commons Attribution-NonDerivs 3.0 Germany