Monsieur Becker

Panorama

Digitales Lexikalisches System

Dienstag, 23. Februar 2010

Gestern besuchte ich in der Berlin-Brandenburgischen Akademie der Wissenschaften ein Kollo­quium des Zentrums Sprache. Thema: »Der ›Grimm der Zukunft‹ – Perspektiven der Lexikographie im 21. Jahrhundert«.

»Der Grimm«, damit ist das von den Brüdern Grimm 1838 begonnene Deutsche Wörterbuch ge­meint. Nach »nur« 123 Jahren, also im Jahre 1961, war man fertig. Da die Buchstabenstrecken, mit denen man begonnen hatte, beim Abschluss des Wörterbuchs deutlich veraltet waren, beschloss man 1957 eine Neubearbeitung der Buchstabenstrecke A – F. 2012 wird man voraussichtlich damit fertig sein.

Eine ähnliche Neubearbeitung der anderen Buchstaben mache keinen Sinn, so Wolfgang Klein, Direktor am Max-Planck-Institut für Psycholinguistik, nebenbei erwähnt ein sehr begabter Rheto­riker. Zum einen dauere die Neuauflage Jahrhunderte (wodurch die Buchstabenstrecken noch viel veralteter wären, als sie es jetzt schon sind). Die Finanzierung eines solchen Mammutprojektes sei ebenfalls nicht realisierbar.

Aus diesem Grund entschloss man sich an der Berlin-Brandenburgischen Akademie der Wissen­schaf­ten, zukünftig ein »Digitales Lexikalisches System« zu entwickeln. Es ist kein Wörterbuch, aber aus den Daten können Wörterbücher abgeleitet werden. Dies möchte ich kurz an einem Beispiel illustrieren: Aus einem Datensatz, der zu jedem Wort die Schreibung und die Aussprache verzeichnet, kann man verschiedene Wörterbücher schaffen: (1) ein Rechtschreibwörterbuch wie den Duden (wie schreibt man ein Wort richtig?), (2) ein Aussprachewörterbuch (wie wird ein Wort ausgesprochen?), (3) ein rückläufiges Wörterbuch (welche Wörter enden auf -nf?), (4) ein phono­logisches Wörterbuch (welche Wörter beginnen mit [ts]? Tsatsiki oder auch Zoo) oder (5) ein Reimlexikon (was reimt sich auf Zoo? Floh, froh, …).

Mit dem Digitalen Lexikalischen System löst man viele Probleme von Papierwörterbüchern. Etwa den Umfang. Schätzungen zufolge gibt es 4,5 Millionen Wörter in der deutschen Sprache (dabei zählen Haus, Hauses, Häuser, Häusern als ein gemeinsames Wort), weit über 400 Buchbände wären dafür notwendig. Darüber hinaus ist ein digitales Wörterbuch ergänz- und korrigierbar. Es muss auch nicht nur auf Schrift zurückgreifen. Das Duden-Universalwörterbuch definiert lachen wie folgt: »durch eine Mimik, bei der der Mund in die Breite gezogen wird, die Zähne sichtbar werden u. um die Augen Fältchen entstehen, [zugleich durch eine Abfolge stoßweise hervorgebrachter, unartikulierter Laute] Freude, Erheiterung, Belustigung o.Ä.«. Ein Video, in dem jemand lacht, wäre sicherlich leichter verständlich als diese Umschreibung. Ein weiterer Vorteil: Das Digitale Lexika­lische System bietet eine »inkrementelle Funktionalität«, das heißt, dass nicht für jedes Wort die gleiche Informationstiefe vorhanden sein muss. Man kann das Wörterbuch schrittweise ausbauen.

Da 4,5 Millionen Einträge nur von Heerscharen an Lexikografen aktuell gehalten werden könnten, wird man sich zukünftig auf »wichtige«, relativ häufig verwendete Wörter konzentrieren, die regelmäßig überarbeitet werden. Zu den anderen Wörtern gibt es jedoch Belege aus Literatur und Presse, sodass die Bedeutung erschlossen werden kann.

Eine überarbeitete Oberfläche des Digitalen Wörterbuchs findet man unter beta.dwds.de. Dort kann man auch ein White Paper herunterladen, in dem zentrale Aspekte des Projektes erklärt werden.