Arbeitspaket 3: Inhaltsanalyse in deutschen Textkorpora

Es hat sich gezeigt, dass durch die international unglaublich breiten und vielfältigen Aktivitäten der letzten Jahre für die automatische Texterkennung eine auf Einzelzeichen (wie bisher üblich) bezogene Qualität erreicht werden kann, die Verbesserungen nur noch für sehr komplizierte Szenarien und/oder mit sehr großem Aufwand ermöglicht. Insbesondere stehen die zu einem entsprechenden Training notwendigen Lerndaten nicht oder nur mit unverhältnismäßig großem Aufwand zur Verfügung, so dass derzeit dieses Gebiet vor allem von großen Playern wie Google, Microsoft und Facebook abgedeckt wird.

Andererseits hat sich dadurch aber auch gezeigt, dass nun die tatsächliche Nutzung der Texterkennungsresultate wichtig wird, also die semantische Interpretation des Gelesenen für die jeweilige Anwendung, und dies auf allen Textebenen wie Wörter, Phrasen, Sätze, Absätze, Seiten, Artikel, Dokumente, Bücher bis hin zu ganzen Korpora. Aus technischer Sicht versteht man dieses höhere Niveau des Lesens von Texten heute als Natural Language Processing (NLP), was sich von den technologisch grundlegenden Methoden bis hin zu komplexen Aufgabenstellungen wie der Analyse von Schwerpunkten (Topic Modeling), dem Erkennen von Wertungen und Meinungen (Stance Detection, Sentiment Analysis), der Zusammenfassung von Inhalten (Text Summarization) und weiter erstreckt.

Dabei gehen wir davon aus, dass eine neuartige Kombination von Grundideen aus verschiedenen Bereichen notwendig sein wird: Bisher wurden (zumeist) NLP-Methoden auf fertig gelesene Texte angewendet. Da die Ergebnisse der Textlesung auf Wortebene (und höher) jedoch nach wie vor fehleranfällig sind, werden die Texte aus Automatisierten Texterkennungsverfahren weithin korrigert, teils sehr aufwendig manuell oder auch mit (semi)automatisierter sogenannter Post-OCR. Verwendet man statt üblicher Texte jedoch stochastische Leseergebnisse, wie sie beispielsweise Neuronale Netze liefern, dann stehen für die weiteren Verarbeitungsstufen viele wahrscheinliche Textvarianten zur Verfügung, die bisher ignoriert wurden.

Die weitere Entwicklung eines solchen Ansatzes ist auch deshalb von großer praktischer Relevanz, weil dadurch die Notwendigkeit und gigantischer Aufwand entfallen kann, für die riesigen Textbestände der Bibliotheken und Archive möglichst perfekten Volltext zu erstellen und abzulegen - vielmehr würde die unfertige Zwischenstufe stochastischer Leseergbenisse erst unter konkreten Zielvorstellungen ausgewertet.