Monsieur Becker

Französisch & Panorama

Was ist wichtig in einem Wörterbuch? Welches Wörterbuch ist wichtig?

Sonntag, 29. März 2015 ·

Vor Kurzem bloggte Herr Rau darüber, wer wichtig in einem Netz ist. Gemäß der Graphentheorie gibt es in einem Netz (= Graph) eine Menge von Knoten, die mit Kanten verbunden sind. Die Wichtigkeit eines Knotens A ergibt sich aus der Wichtigkeit der Knoten, die mit A verbunden sind.

Da jede Veränderung der Wichtigkeit eines Knotens sich auf die Wichtigkeit der verbundenen Knoten auswirkt (und dies wiederum auf deren angeschlossene Knoten Auswirkungen hat), muss die Berechnung in sich wiederholenden Schritten erfolgen. Man spricht von einer iterative Berechnung.

So etwas Ähnliches führen Suchmaschinenbetreiber durch, um den PageRank jeder Internetseite zu bestimmen.

Und sowas kann man auch durchführen, um zu beurteilen, welches Wort und welches Wörterbuch wichtig sind. Denn Wörterbücher enthalten teilweise gleiche, aber auch unterschiedliche Wörter. Sie bilden somit ein Netz, bei dem die Wörterbücher und Wendungen die Knoten sind. Immer wenn ein Wort in einem Wörterbuch vorkommt, ist dies eine verbindende Kante.

Die Ausgangsdaten

Für ein Uniprojekt habe ich eine Wortliste von c bis calfeutrer erstellt. Ich habe in sieben kleinen und drei großen zweisprachigen Lernerwörterbüchern untersucht, welche Wörter dieser Buchstabenstrecke verzeichnet sind. Ebenso habe ich geschaut, welche Wörter in einsprachigen Lernerwörterbüchern verzeichnet sind. Insgesamt kam ich so auf 310 Wörter. Sodann habe ich für jedes Wort die Worthäufigkeit im Textkorpus Frantext ermittelt.

Um erstmalig die Wichtigkeit eines Wortes zu berechnen, habe ich folgende Aspekte berücksichtigt:

Jeder dieser vier Aspekte ist, so habe ich es einfach festgelegt, gleichrangig wichtig, sodass die erreichte Punktzahl durch vier dividert wird. Mögliche Werte sind von 0 bis 1.

Das Wort ça ist in der gewählten Buchstabenstrecke das wichtigste Wort, denn es kommt in allen Wörterbüchern vor und gehört von 25 möglichen Häufigkeitsklassen der Klasse 8 an (je kleiner die Klasse, desto häufiger ist das Wort). Damit hat es eine Wichtigkeit von 0,947. Eine Reihe von Wörtern erreicht nur eine Wichtigkeit von 0,072, da sie in nur einem Kontrollwörterbuch sowie sehr selten im Korpus vorkommen.

Iterative Berechnung

So dann habe ich die folgenden Berechnungen wiederholend durchgeführt:

  1. Berechnung der Wichtigkeit des Wörterbuchs: Zuerst habe ich die Wichtigkeit aller Wortknoten insgesamt (Maximalwert) summiert, anschließend führe ich diese Addition für jedes zweisprachige Wörterbuch durch. Die Summe jedes Wörterbuchs wurde auf eine Skala von 0 bis 1 (entspricht dem Maximalwert) umgerechnet.
  2. Berechnung der Wichtigkeit des Wortes: Die Wichtigkeit aller zweisprachigen Wörterbücher, in denen ein Wort vorkommt, habe ich für jedes Wort addiert und durch die Anzahl der möglichen Wörterbücher (10) dividiert. Der Wert (von 0 bis 1) stellt den neue Wichtigkeitswert des Wortes dar.

Beide Schritte musste ich fünfmal durchführen, sodass sich bei Rundung auf drei Stellen nach dem Komma stabile Werte ergaben.

Was kann man damit anfangen?

Ausgehend von den Ergebnissen könnte man die Qualität eines Wörterbuchs beurteilen, zumindest hinsichtlich der Anzahl der Wörter. Zudem könnte man festlegen, welche Wörter vor allem in kleinen Wörterbüchern vorkommen sollten.

Teilen: Telegram Twitter

5 Reaktionen

  1. Herr Rau

    2. April 2015 – 07:26 Uhr (#7697)

    Wieso zählt bei der Wichtigkeit eines Wortes die Korpus-Häufigkeit so relativ wenig? Entscheidender ist ja bei der Analyse doch die Entscheidung einer Redaktion (heißt das Redaktion?) eines Wörterbuchs, das Wort aufzunehmen. Weil die nicht nur nach Frequenz arbeiten, sondern andere, wohl bessere Kriterien haben?

    Das einsprachige Dictionary of Contemporary English hat für (alle? manche?) Wörter die Frequenzklassen angegeben, dreistufig, wenn ich mich recht erinnere. Ich glaube, ich habe seit Jahren kein Wörterbuch mehr in der Hand gehabt.

  2. Julius Becker

    2. April 2015 – 07:50 Uhr (#7698)

    Ich habe die Frequenz relativ gering gewertet, da die die Korpustexte nicht annotiert sind und die Ergebnisse somit nicht nach Wortart aufgeschlüsselt werden. Zum Beispiel werden unter la der bestimmte Artikel, ein Teil des Teilungsartikels (de la) sowie das direkte Objektpronomen subsummiert. Die elidierte Variante (l‘ steht anstelle von la und le vor Wörtern, die mit einem Vokal beginnen) hingegen müsste man dazurechnen. Insofern ist die Häufigkeitsangabe relativ unzuverlässig. Darüber hinaus spielt natürlich der von dir angesprochene Aspekt eine Rolle, dass Wörter in einem Wörterbuch nicht nur nach Häufigkeit ausgewählt werden sollten.

    Was die englischen Wörterbücher angeht: Die leisten viel mehr als einsprachige Französischwörterbücher. Neben Frequenzen gibt es häufig auch Listen sehr wichtiger Wörter, so zum Beispiel Oxford 3000. Gäbe es sowas für Französisch, sollte man das natürlich auch mit berücksichtigen.

  3. ixsi

    2. April 2015 – 09:06 Uhr (#7699)

    Wieso meinst du, dass es diese Listen für Französisch nicht gibt? Dafür steht doch der Grund- und Aufbauwortschatz. Das sind doch gerade die Listen mit den häufigsten Wörtern. Dafür wurden zwar keine Wörterbücher ausgewertet, sondern Interviews, Reden o.ä. und es fehlen Häufigkeitswerte (wobei ich meine, die irgendwo mal gesehen zu haben, muss mal auf meiner Festplatte suchen).

  4. Julius Becker

    2. April 2015 – 20:09 Uhr (#7708)

    Hm, da habe ich mich missverständlich ausgedrückt: Bei Oxford 3000 handelt es sich nicht ausschließlich um frequente Wörter, sondern um solche, die auch zur Beschreibung der Bedeutung anderer Wörter wichtig sind (Definitionswortschatz). Die Intention ist also eine andere, auch wenn es sicherlich große Überschneidungen gibt.

    Was die Grund- und Aufbauwortschätze, die ja auch eine Form des Wörterbuchs sind, angeht: Wenn man sich die Vorwörter oder Klappentexte ansieht, wird nur nebulös beschrieben, nach welchen Kriterien die Wortschätze zusammengestellt werden. Ich kenne lediglich den Grundwortschatz von Lextra, der für jedes Wort eine Frequenzangabe macht. Allerdings ist die Korpusbasis ziemlich alt.

  5. ixsi

    2. April 2015 – 21:12 Uhr (#7710)

    Es gibt ja ein „offizielles“ Basisvokabular, das français fondamental, vermutlich bauen alle Grund- und Aufbauwortschatzbücher darauf auf. Nun ist diese Liste in der Tat schon etwas älter (aus dem 50/60er Jahren) und damit nicht mehr ganz aktuell. Daher gab es seitdem neue Listen, einige davon sind hier aufgeführt: http://flecampus.over-blog.com/article-mots-fran-ais-les-plus-utilises-fle-114972482.html

diesen Beitrag kommentieren

Die Angabe eines Namens ist erforderlich (geben Sie ggf. anonym ein), E-Mail-Adresse (wird weder veröffentlicht noch weitergegeben) und Website sind fakultative Angaben. Beachten Sie bitte den Datenschutzhinweis!

Alle Kommentare werden moderiert, dies kann ggf. etwas dauern.