Was ist wichtig in einem Wörterbuch? Welches Wörterbuch ist wichtig?
Wie kann man herausfinden, welche Wörter wichtig sind? Und kann man Wörterbücher danach bewerten?
Vor Kurzem bloggte Herr Rau darüber, wer wichtig in einem Netz ist. Gemäß der Graphentheorie gibt es in einem Netz (= Graph) eine Menge von Knoten, die mit Kanten verbunden sind. Die Wichtigkeit eines Knotens A ergibt sich aus der Wichtigkeit der Knoten, die mit A verbunden sind.
Da jede Veränderung der Wichtigkeit eines Knotens sich auf die Wichtigkeit der verbundenen Knoten auswirkt (und dies wiederum auf deren angeschlossene Knoten Auswirkungen hat), muss die Berechnung in sich wiederholenden Schritten erfolgen. Man spricht von einer iterative Berechnung.
So etwas Ähnliches führen Suchmaschinenbetreiber durch, um den PageRank jeder Internetseite zu bestimmen.
Und sowas kann man auch durchführen, um zu beurteilen, welches Wort und welches Wörterbuch wichtig sind. Denn Wörterbücher enthalten teilweise gleiche, aber auch unterschiedliche Wörter. Sie bilden somit ein Netz, bei dem die Wörterbücher und Wendungen die Knoten sind. Immer wenn ein Wort in einem Wörterbuch vorkommt, ist dies eine verbindende Kante.
Die Ausgangsdaten
Für ein Uniprojekt habe ich eine Wortliste von c bis calfeutrer erstellt. Ich habe in sieben kleinen und drei großen zweisprachigen Lernerwörterbüchern untersucht, welche Wörter dieser Buchstabenstrecke verzeichnet sind. Ebenso habe ich geschaut, welche Wörter in einsprachigen Lernerwörterbüchern verzeichnet sind. Insgesamt kam ich so auf 310 Wörter. Sodann habe ich für jedes Wort die Worthäufigkeit im Textkorpus Frantext ermittelt.
Um erstmalig die Wichtigkeit eines Wortes zu berechnen, habe ich folgende Aspekte berücksichtigt:
- In wie vielen der sieben kleinen Wörterbücher kommt das Wort vor?
- In wie vielen der drei großen Wörterbücher kommt es vor?
- In wie vielen der vier einsprachigen Lernerwörterbücher kommt es vor?
- Welcher Häufigkeitsklasse gehört das Wort im Textkorpus an?
Jeder dieser vier Aspekte ist, so habe ich es einfach festgelegt, gleichrangig wichtig, sodass die erreichte Punktzahl durch vier dividert wird. Mögliche Werte sind von 0 bis 1.
Das Wort ça ist in der gewählten Buchstabenstrecke das wichtigste Wort, denn es kommt in allen Wörterbüchern vor und gehört von 25 möglichen Häufigkeitsklassen der Klasse 8 an (je kleiner die Klasse, desto häufiger ist das Wort). Damit hat es eine Wichtigkeit von 0,947. Eine Reihe von Wörtern erreicht nur eine Wichtigkeit von 0,072, da sie in nur einem Kontrollwörterbuch sowie sehr selten im Korpus vorkommen.
Iterative Berechnung
So dann habe ich die folgenden Berechnungen wiederholend durchgeführt:
- Berechnung der Wichtigkeit des Wörterbuchs: Zuerst habe ich die Wichtigkeit aller Wortknoten insgesamt (Maximalwert) summiert, anschließend führe ich diese Addition für jedes zweisprachige Wörterbuch durch. Die Summe jedes Wörterbuchs wurde auf eine Skala von 0 bis 1 (entspricht dem Maximalwert) umgerechnet.
- Berechnung der Wichtigkeit des Wortes: Die Wichtigkeit aller zweisprachigen Wörterbücher, in denen ein Wort vorkommt, habe ich für jedes Wort addiert und durch die Anzahl der möglichen Wörterbücher (10) dividiert. Der Wert (von 0 bis 1) stellt den neue Wichtigkeitswert des Wortes dar.
Beide Schritte musste ich fünfmal durchführen, sodass sich bei Rundung auf drei Stellen nach dem Komma stabile Werte ergaben.
- Das Wörterbuch mit der höchsten Wichtigkeit erreicht einen Wert von 0,967, das mit der geringsten Wichtigkeit nur 0,475.
- Das Wort mit der höchsten Wichtigkeit ist weiterhin ça mit einem Wert von 0,712.
Was kann man damit anfangen?
Ausgehend von den Ergebnissen könnte man die Qualität eines Wörterbuchs beurteilen, zumindest hinsichtlich der Anzahl der Wörter. Zudem könnte man festlegen, welche Wörter vor allem in kleinen Wörterbüchern vorkommen sollten.