Diese Dateien basieren auf der von der Uni Leipzig erstellten Liste der 10000 häufigsten Wörter (bzw. Wortformen) der deutschen Sprache¹. Groß- und Kleinschreibung sowie Sonderzeichen (Bindestriche, Leerzeichen, Apostrophe, Buchstaben mit Akzenten, Zahlen, …) wurden ignoriert. Gemäß des Zipfschen Gesetzes² wurden die Häufigkeiten der Wörter annähernd rekonstruiert (a=0,83). Anschließend wurden die Häufigkeiten des Auftreten einzelner Buchstaben sowie Bi- und Trigramme mit den Zipf-Wahrscheinlichkeiten gewichtet, aufsummiert, sortiert und auf 100% renormiert. Somit verstehen sich die Zeilen in allen Dateien als relative Häufigkeit und Name des Mono/Bi/Trigramms. ¹ http://wortschatz.uni-leipzig.de/html/wliste.html Die Uni Leipzig weist jedoch selbst darauf hin, dass die Reihenfolge von der Auswahl der Quelle abhängt ² http://de.wikipedia.org/wiki/Zipfsches_Gesetz Dabei treten Fehler sowohl bei den häufigsten Wörtern auf, deren berechnete Häufigkeit zu hoch liegt, als auch bei den seltenen Wörtern, da bereits die häufigsten 10000 Wörter auf 100% gesetzt werden.