summaryrefslogtreecommitdiff
path: root/statistik/Leipzig-Karl/README.txt
blob: 6f8d95d12b0627595875a652434c7f10eafbcdc7 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
== Über diesen Korpus ==
im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt:
• Umstellung auf die Neue Rechtschreibung,
• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
• Korrektur vieler Rechtschreibfehler.

Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl  die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.

Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus.

=== Dateien ===
Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper kann (derzeitig) hier heruntergeladen werden:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html

In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen.

Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden.