1.2 Die Wortklassen |
![]() |
Die in di-lemmata vorgenommene Einteilung der Wortklassen bedarf einiger vorgängiger Erläuterungen.
Jeder Wortartenklassifizierung haftet der Mangel an, daß sich in ihr morphologische, syntaktische und semantische Aspekte miteinander vermengen und zwangsläufig zu verschiedenen Ergebnissen führen. Eine einheitliche und von allen Linguisten akzeptierte Einteilung in Wortklassen existiert nicht und wird, wie nicht schwer vorauszusehen, auch in Zukunft nicht existieren. Da der Stein der Weisen nicht gefunden werden kann, hätte man sich schlicht ein Angebot, zum Beispiel das des letzten Grammatik-Duden, aussuchen und zur Grundlage der Lemmatisierung machen können. Hier allerdings wird ein anderer Weg beschritten. Die hier vorgenommene Einteilung in Wortklassen, nach der die Texte lemmatisiert wurden, zielt nicht (wie diverse Grammatiken) auf eine detaillierte grammatische Beschreibung (wie immer eine solche auch mit den oben genannten Problemen behaftet ist), sondern steht ganz unter der übergeordneten Zielsetzung des Programms, neue Möglichkeiten einer computergestützten Textanalyse zu eröffnen. In anderen Worten: das vorliegende ist kein neues Konkurrenzmodell zu den currenten, die ohnehin anderen Zwecken dienen, sondern eine Klassifizierung, die sich möglichen Fragestellungen anpaßt.
Ohne daß an dieser Stelle Fragen wie die nach Sinn und Bedeutung, Signifikant und Signifikat, Systematik und Pragmatik etc. auch nur annähernd diskutiert werden können (sie stünden auch nicht mehr in einem relevanten Zusammenhang zu di-lemmata), läßt sich doch, allgemein und mit wohl unbestreitbarer Berechtigung, sagen, daß der semantische Gehalt eines Textes hauptsächlich, wenn auch nicht ausschließlich, von den Hauptwortarten Substantiv, Adjektiv und Verb getragen wird. Untersuchungen zum Wortschatz oder Wortgebrauch eines Dichters werden sich daher überwiegend auf diese sog. Hauptwortarten stützen.
Sie unterscheiden sich von den anderen als Restklasse zusammengefaßten Wortarten neben ihrer wichtigen "semantischen" Funktion auch noch dadurch, daß es prinzipiell offene Klassen sind. Das bedeutet: es treten jederzeit neue Lexeme auf; andere veralten und gehen verloren. Wortarten wie Artikel, Pronomen Konjunktionen (also Mitglieder der Restklasse) dagegen sind so gut wie geschlossene Klassen, das heißt, es werden kaum neue Lexeme gebildet; der Bestand ist konstant.
Zwischen beiden, Hauptwortarten und Restklasse, gibt es noch einen gerade bei der Bearbeitung von großen Textmengen nicht unwesentlichen quantitativen Unterschied. Die Wortarten der Restklasse haben, wie gesagt, in der Regel einen konstanten und überschaubaren Bestand an Lexemen, während die Hauptwortarten genau zum Gegenteil tendieren, also unbegrenzt und, mehr oder weniger, inkonstant sind. Bei der Häufigkeit der Lexeme im Text, also ihrem realen Vorkommen, verhält es sich grosso modo umgekehrt. Manche Lexeme der Restwortklassen (wie natürlich die Artikel oder die Konjunktion "und") zeichnen sich durch eine sehr hohe Frequenz aus. Sieht man vom Verb "sein" ab, das durch seine Funktion als Hilfsverb selbstverständlich hochfrequent ist, gibt es unter den zehn am häufigsten vorkommenden Lexemen z.B. im Trakl-Korpus kein einziges der semantischen Hauptwortarten. Und unter den ersten 25 Lexemen hinsichtlich der Häufigkeit befinden sich nur zwei Substantive und drei Adjektive; bezeichnenderweise für das Traklsche Werk handelt es sich bei diesen Lexemen um die Substantive "Nacht" und "Schatten" und die drei Adjektiva "dunkel", "schwarz" und "blau".
Zwar spielt die Restklasse nicht die überragende (semantische) Rolle für literaturwissenschaftliche Fragen, doch wurde trotzdem hier der Versuch unternommen, auch diese Klasse in verschiedene Unterklassen zu unterteilen; allerdings nur bis zu einem gewissen Grad und mit einigen Ausnahmen. Alle eindeutig identifizierbaren Lexeme wurden ihrer Wortart zugeordnet; aber auf eine weitere Unterordnung, wie in Grammatiken üblich, wurde verzichtet. So werden zum Beispiel alle Pronomina zusammengefaßt, ohne daß auf eine differenzierende Gruppierung in die verschiedenen Pronomina-Arten abgestellt wird. Desgleichen wird keine weitere Unterscheidung in koordinierende und subordinierende Konjunktionen getroffen.
Ganz im Sinne der übergreifenden Intention des Projekts – also der sinnvollen Unterstützung einer Literaturanalyse &ndash werden der Liste der Wortarten unter C die Eigennamen, Fremdwörter und die Zitate zugefügt. Es versteht sich von selbst, daß alle drei Kategorien nicht zu den Wortarten im terminologischen Sinne gehören, doch ein besonderer Ausweis dieser drei Gruppen erscheint aus dem genannten Grund sinnvoll.
Abschließend sei noch der Umfang der Lemmatisierung genannt: lemmatisiert wurden alle poetischen Texte. Tagebücher, Briefe und andere nicht im engeren Sinne dichterischen Texte wurden nicht lemmatisert; allerdings steht ein Personenregister für diese Texte zur Verfügung.
Die Wortklassen:
A. Die Hauptwortarten: |
1. Substantiv 2. Adjektiv 3. Verb |
B. Die Restklasse: |
4. Adverb 5. Artikel 6. Pronomina 7. Pronominaladverbien 8. Fragewörter 9. Präpositionen 10. Konjunktionen 11. Mehrdeutige |
C. |
12. Eigennamen 13. Fremdwörter 14. Zitate |