Forschungsziele und -methoden_Entwurf - Die Evolution von komplexen Textmustern

Forschungsziele und -methoden

Ziel des Projekts ist die Ermittlung geeigneter Indikatoren für historischen Textmusterwandel anhand einschl?giger Textsorten der Gebrauchsliteratur der jüngeren Sprachgeschichte. Ausgew?hlt wurden die Erbauungsliteratur (1650-1800), etwa Leichenpredigten, Gebets- und Andachtsbücher, sowie die unterschiedlichen Textsorten der Pressekommunikation (1830-1929), zu denen informations- und meinungsbetonte, jedoch auch feuilletonistische Textsorten geh?ren. Es werden zu den beiden Genres Nachdigitalisierungen (174 Ausgaben der Allgemeinen Zeitung, 37 Werke erbaulicher Textsorten) vorgenommen, die in das Deutsche Textarchiv (DTA) eingehen. Die Nachdigitalisierungen erlauben über das Forschungsvorhaben hinaus etwa Untersuchungen zur Zeitungskommunikation, die vom 18. Jahrhundert bis zum Beginn des 20. Jahrhunderts reichen k?nnen.

Trotz ihrer sprachhistorischen Bedeutung erfolgten Untersuchungen zum Textmusterwandel innerhalb der betrachteten Textsorten bislang nur auf sehr schmaler Materialgrundlage. Deshalb soll ein im Rahmen der Vorarbeiten entworfenes Modell zur Erfassung von Textmusterwandel systematisch korpusbasiert erprobt und weiterentwickelt werden (s. qualitative und quantitative Forschung). Zugrunde gelegt werden Textsorten der Presseliteratur einerseits und der Erbauungsliteratur andererseits, weil sie in den jeweiligen Untersuchungszeitr?umen einen festen Sitz im Leben breiter Rezipientenkreise hatten. Durch die Verschiedenheit der untersuchten Korpora sind profunde Aussagen zu Erscheinungsformen des Textmusterwandels m?glich, wodurch die Anwendbarkeit der im Projekt entwickelten Verfahren für die Untersuchung weiterer Textsorten gew?hrleistet wird.

Das dem Projekt zugrundeliegende mehrdimensionale Modell soll im Projekt an einer breiten Materialgrundlage überprüft und das Modell dabei so operationalisiert werden, dass automatische und manuelle Textanalyse sowie quantitative und qualitative Auswertung ineinandergreifen und sich wechselseitig informieren. Damit soll ein Standardworkflow für die historische Textanalyse geschaffen werden. Gleichzeitig soll dieses Vorgehen erm?glichen, ein differenziertes Vokabular für den Textmusterwandel zu entwickeln, das über die Bestimmung von ?Divergenz“, ?Konvergenz“ und ?Hybridisierung“ u.?. hinausgeht und das Zusammenspiel solcher Faktoren wie Medium, kulturelle Hintergründe und Wissensstrukturen n?her in den Blick nimmt.

Quantitative und qualitative Forschung

Das im Forschungsvorhaben zugrunde gelegte Analysemodell stellt eine Synthese der in der Textlinguistik der letzten Jahrzehnte vorgestellten mehrdimensionalen Modelle dar. Gleichzeitig wird der Forschungsstand zur historischen Zeitungskommunikation und zur Erbauungsliteratur einbezogen. Ausgehend von Textoberfl?che gibt der Sprachgebrauch u.E. Hinweise auf die funktionale, thematische, stilistische und die Beziehungsdimension von Texten.

Zur quantitativen Analyse

Im Rahmen der quantitativen Analyse in den Blick genommen werden konkret die musterhaften Auspr?gungen der Textoberfl?che, die - so die Annahme - auf Gegebenheiten der thematischen, funktionalen, sozialen und stilistischen Dimension hinweisen bzw. diese repr?sentieren. Zum gro?en Teil k?nnen die betreffenden Textmuster mit automatisierten Verfahren extrahiert werden. So finden sich z.B. in Andachtsbüchern h?ufig Wiederholungsstrukturen, die vermutlich der Einpr?gsamkeit und dem meditativen Charakter des Textes dienen sollen. Solche Wiederholungsstrukturen k?nnen durch Wort- oder Phrasenwiederholungen sowie durch grammatische Parallelismen auf der Textoberfl?che realisiert sein.

Für die automatische Merkmalsextraktion sind Annotationen bestimmter Texteigenschaften besonders ausschlaggebend: So weisen die Dokumente des DTA bereits TEI-Auszeichnungen von Textgliederungsstrukturen und (ggf.) Binnentextsorten auf. Darüber hinaus stellt das DTA Ausgabeformate bereit, die linguistische Informationen auf Token-Ebene (z.B. Lemma, Wortart und modernisierte Schreibweise) enthalten. Mithilfe dieser Informationen lassen sich bereits viele der zu untersuchenden Merkmale in den Texten automatisch ermitteln. Für weiterführende Analyseschritte, z.B. zu (morpho-)syntaktischen Strukturen, Koreferenzen oder Eigennamen, kann au?erdem auf computerlinguistische Verfahren zurückgegriffen werden, die mittlerweile vielf?ltig frei zur Verfügung stehen (z.B. in CLARINs WebLicht integrierte Syntaxparser). Die Merkmalsextraktion wird h?ufig vielschichtig sein, d.h. mehrere Informationstypen gleichzeitig in Betracht ziehen und auswerten. Auf die automatische Merkmalsextraktion ebenso wie auf die manuelle Annotation folgt dann die statistische Auswertung der erhobenen Merkmale, wiederum mit automatischen Verfahren.

Zur qualitativen Analyse

Die qualitativ orientierte manuelle Annotation berührt Aspekte der funktionalen, stilistischen, thematischen und Beziehungsdimension, die mittels automatischer Verfahren nicht erschlossen werden k?nnen. Das Projektteam hat sich für die manuelle Annotation für das browserbasierte Textannotations- und -analysetool CATMA 6.0 entschieden, da es die M?glichkeit bietet, taxonomisch aufgebaute individuelle Tagsets beliebiger Komplexit?tsstufen zu erstellen, indem Annotationen problemlos ver?ndert werden k?nnen.

CATMA 6.0 erlaubt problemlos den für das Inter-Annotator-Agreement wichtigen Abgleich von Annotationen. Durch die M?glichkeit des XML-Imports und -Exports ist zudem die Nach- und Weiternutzbarkeit der Daten sichergestellt. Die in CATMA annotierten und daraus exportierten Daten werden in eine TEI-P5-Repr?sentation überführt und k?nnen in dieser Form der weiteren automatischen Bearbeitung zugeführt werden. 360直播吧 k?nnen somit auch mit den Merkmalen kombiniert werden, die aus der automatischen Datenanalyse gewonnen wurden. Die Annotationen werden dann daraufhin ausgewertet, ob sie Rückschlüsse auf die Wandelprozesse gem?? den Beschreibungsdimensionen und von dort ausgehend bisher in der Forschung etablierte Deutungshypothesen stützen k?nnen.

Neben der manuellen Annotation werden die bei der quantitativen Analyse erhobenen Daten qualitativ ausgewertet. Allerdings k?nnen auch die Ergebnisse der qualitativen Analyse wieder für Anlass für quantitative Erhebungen sein.

Wir sind der Auffassung, dass sich sprachliche Indikatoren auf der Textoberfl?che für die unterschiedlichen Dimensionen teils mittels automatischer Verfahren und computerlinguistischer Software und teils bisher nur mittels manueller Annotation erschlie?en lassen. Abb. 2 zeigt am Beispiel der funktionalen Dimension, welche sprachlichen Indikatoren ihr zugeordnet werden k?nnen und mit welchen automatischen Verfahren diese bearbeitet werden k?nnen.

Abb. 3 zeigt hingegen die Aspekte der funktionalen Dimension die nur mittels manueller Annotation bearbeitet werden k?nnen. Auf den nachfolgenden Abb. finden sich die übrigen Dimensionen und ihre jeweilige Bearbeitung.

Zum Vor?ge?hen in den üb?ri?gen Ana?ly?se?di?men?si?o?nen auf quan?ti?ta?ti?ver und qua?li?ta?ti?ver Ebe?ne

Beziehungsdimension - quantitativ und qualitativ

Quantitative Ermittlung

Qualitative Ermittlung

Stilistische Dimension - quantitativ und qualitativ

Quantitative Ermittlung

Qualititative Ermittlung

Thematische Dimension - quantitativ und qualitativ

Quantitative Ermittlung

Qualitative Ermittlung

Zur Aus?wer?tung der Er?geb?nis?se

Die Ergebnisse der statistischen Auswertung sollen in Rückbindung an die Quellen interpretiert und qualifiziert werden; ebenso sollen die Ergebnisse der manuellen Annotation zur automatischen Merkmalsextraktion genutzt werden. Diese Verzahnung von quantitativer und qualitativer Analyse wird in einer Pilotierungsphase erprobt. Wir gehen prinzipiell davon aus, dass durch die automatische Textanalyse andere Aspekte des Textmusterwandels in den Blick geraten (z.B. zeitübergreifende Wandeltendenzen) als durch eine manuelle Annotation, die Ergebnisse aber aufeinander bezogen werden k?nnen.

Tagsets und manuelle Annotation

Der Ausschnitt zeigt die Annotation in Catma 6.1.3 auf allen Annotationsebenen.

Annotationen Zeitung

Die Annotation unterteilt sich in ... die in den unten verlinkten Abbildungen verdeutlicht werden ....

Tagset Zeitung

Das Tagset wurde im Rahmen der Annotation eines Pilotkorpus entwickelt.

Tagset zur manuellen Annotation der Pressekommunikation

An?no?ta?ti?o?nen Er?bau?ungs?li?te?ra?tur

Annotationen der Ebenen 0 (Formalia) und 4.1 (Beziehungsdimension, Personen und Personengruppen). Quelle: Freitag, Christoph: Todes Trutz in Gottes Schutz. Oels, 1652, S. [3]. In: Deutsches Textarchiv

Tag?set Er?bau?ungs?li?te?ra?tur

Die Guidelines für die Annotation der Erbauungsliteratur in CATMA......

Tagset zur manuellen Annotation der Erbauungsliteratur

Kondensat des Vorhabens im DHd-Poster

Das Poster, das im Rahmen der im M?rz 2020 abgehaltenen DHd-Jahrestagung "Spielr?ume" erarbeitet wurde, gibt das geschilderte Projektvorhaben in kondensierter und exemplarischer Form wieder.

360直播吧

Quantitative Ermittlung

Qualitative Ermittlung

Quantitative Ermittlung

Qualititative Ermittlung

Quantitative Ermittlung

Qualitative Ermittlung

An­nota­tion­en Zei­tung

Tag­set Zei­tung

An­?no?ta?ti?o?n­en Er­?bau?ung­s?li?te?ra?tur

Tag?­set Er­?bau?ung­s?li?te?ra?tur

Annotationen Zeitung

Tagset Zeitung

An?no?ta?ti?o?nen Er?bau?ungs?li?te?ra?tur

Tag?set Er?bau?ungs?li?te?ra?tur