Monsieur Becker

Französisch & Panorama

Was ist wichtig in einem Wörterbuch? Welches Wörterbuch ist wichtig?

Sonntag, 29. März 2015

Wie kann man herausfinden, welche Wörter wichtig sind? Und kann man Wörterbücher danach bewerten?

Vor Kurzem bloggte Herr Rau darüber, wer wichtig in einem Netz ist. Gemäß der Graphentheorie gibt es in einem Netz (= Graph) eine Menge von Knoten, die mit Kanten verbunden sind. Die Wichtigkeit eines Knotens A ergibt sich aus der Wichtigkeit der Knoten, die mit A verbunden sind.

Da jede Veränderung der Wichtigkeit eines Knotens sich auf die Wichtigkeit der verbundenen Knoten auswirkt (und dies wiederum auf deren angeschlossene Knoten Auswirkungen hat), muss die Berechnung in sich wiederholenden Schritten erfolgen. Man spricht von einer iterative Berechnung.

So etwas Ähnliches führen Suchmaschinenbetreiber durch, um den PageRank jeder Internetseite zu bestimmen.

Und sowas kann man auch durchführen, um zu beurteilen, welches Wort und welches Wörterbuch wichtig sind. Denn Wörterbücher enthalten teilweise gleiche, aber auch unterschiedliche Wörter. Sie bilden somit ein Netz, bei dem die Wörterbücher und Wendungen die Knoten sind. Immer wenn ein Wort in einem Wörterbuch vorkommt, ist dies eine verbindende Kante.

Die Ausgangsdaten

Für ein Uniprojekt habe ich eine Wortliste von c bis calfeutrer erstellt. Ich habe in sieben kleinen und drei großen zweisprachigen Lernerwörterbüchern untersucht, welche Wörter dieser Buchstabenstrecke verzeichnet sind. Ebenso habe ich geschaut, welche Wörter in einsprachigen Lernerwörterbüchern verzeichnet sind. Insgesamt kam ich so auf 310 Wörter. Sodann habe ich für jedes Wort die Worthäufigkeit im Textkorpus Frantext ermittelt.

Um erstmalig die Wichtigkeit eines Wortes zu berechnen, habe ich folgende Aspekte berücksichtigt:

Jeder dieser vier Aspekte ist, so habe ich es einfach festgelegt, gleichrangig wichtig, sodass die erreichte Punktzahl durch vier dividert wird. Mögliche Werte sind von 0 bis 1.

Das Wort ça ist in der gewählten Buchstabenstrecke das wichtigste Wort, denn es kommt in allen Wörterbüchern vor und gehört von 25 möglichen Häufigkeitsklassen der Klasse 8 an (je kleiner die Klasse, desto häufiger ist das Wort). Damit hat es eine Wichtigkeit von 0,947. Eine Reihe von Wörtern erreicht nur eine Wichtigkeit von 0,072, da sie in nur einem Kontrollwörterbuch sowie sehr selten im Korpus vorkommen.

Iterative Berechnung

So dann habe ich die folgenden Berechnungen wiederholend durchgeführt:

  1. Berechnung der Wichtigkeit des Wörterbuchs: Zuerst habe ich die Wichtigkeit aller Wortknoten insgesamt (Maximalwert) summiert, anschließend führe ich diese Addition für jedes zweisprachige Wörterbuch durch. Die Summe jedes Wörterbuchs wurde auf eine Skala von 0 bis 1 (entspricht dem Maximalwert) umgerechnet.
  2. Berechnung der Wichtigkeit des Wortes: Die Wichtigkeit aller zweisprachigen Wörterbücher, in denen ein Wort vorkommt, habe ich für jedes Wort addiert und durch die Anzahl der möglichen Wörterbücher (10) dividiert. Der Wert (von 0 bis 1) stellt den neue Wichtigkeitswert des Wortes dar.

Beide Schritte musste ich fünfmal durchführen, sodass sich bei Rundung auf drei Stellen nach dem Komma stabile Werte ergaben.

Was kann man damit anfangen?

Ausgehend von den Ergebnissen könnte man die Qualität eines Wörterbuchs beurteilen, zumindest hinsichtlich der Anzahl der Wörter. Zudem könnte man festlegen, welche Wörter vor allem in kleinen Wörterbüchern vorkommen sollten.