statistik/Leipzig-Karl/README.txt


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

== Über diesen Korpus ==
im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei manuell bereinigt und überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt:
• Umstellung auf die Neue Rechtschreibung gemäß Rechtschreibduden,
• d. h. alte Rechtschreibung kommt in der nun vorgestellten Datei kaum noch vor.
• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
• Korrektur vieler Rechtschreibfehler.

Des weiteren wurden (nach dem Entfernen der Zeilennummern) jeweils 5 Sätze zu einem Absatz zusammengefügt, wodurch die Häufigkeit für die Enter-Taste in etwa ihrer tarsächlichen Häufigkeit entsprechen sollte.

Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten (es ging da nur noch um den Rest der von einem Punkt gefolgten Einzelgroßbuchstaben wie z. B. in »George W. Bush«, was wahrscheinlich sowieso wenig relevant sein dürfte), kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.

== Einsatzmöglichkeit ==
Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus und sollte etwa für computergestützte Analyen und Optimierungungen verwendet werden.

Wegen der Neuen Rechtschreibung  wird das ß sicherlich weniger, das s häufiger vorkommen als in anderen Korpussen – es könnte sein, dass wir hiermit die erste öffentlich zugängliche Zeichenhäufigkeitsliste zu einem nicht kleinen Korpus haben, der auf der Neuen Rechtschreibung basiert.

=== Dateien ===
Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper (Größe: 100 MB komprimiert / 300 MB unkomprimiert) kann (derzeitig) hier heruntergeladen werden:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html

In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen.

Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden.