summaryrefslogtreecommitdiff
path: root/statistik/Leipzig-Karl/README.txt
diff options
context:
space:
mode:
authordennis <dennis@b9310e46-f624-0410-8ea1-cfbb3a30dc96>2010-05-05 18:33:47 +0000
committerdennis <dennis@b9310e46-f624-0410-8ea1-cfbb3a30dc96>2010-05-05 18:33:47 +0000
commitaff1073da93e6b223b18ee376eecf50a4e93567b (patch)
tree49fb317a0df0b84890f0953b7b016739a140e23c /statistik/Leipzig-Karl/README.txt
parent3380939a8e8301982c720092793aeeff95f4f50b (diff)
downloadneo-layout-aff1073da93e6b223b18ee376eecf50a4e93567b.tar.gz
neo-layout-aff1073da93e6b223b18ee376eecf50a4e93567b.tar.bz2
neo-layout-aff1073da93e6b223b18ee376eecf50a4e93567b.zip
Ergänzung: Die Dateien des von Karl Köckemann überarbeiteten Leipziger Korpus (die eigentliche Korpus fehlt jedoch, da 100 MB für eine einzige Datei
wohl doch das SVN sprengen würden). git-svn-id: https://svn.neo-layout.org@2310 b9310e46-f624-0410-8ea1-cfbb3a30dc96
Diffstat (limited to 'statistik/Leipzig-Karl/README.txt')
-rw-r--r--statistik/Leipzig-Karl/README.txt18
1 files changed, 18 insertions, 0 deletions
diff --git a/statistik/Leipzig-Karl/README.txt b/statistik/Leipzig-Karl/README.txt
new file mode 100644
index 0000000..6f8d95d
--- /dev/null
+++ b/statistik/Leipzig-Karl/README.txt
@@ -0,0 +1,18 @@
+== Über diesen Korpus ==
+im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt:
+• Umstellung auf die Neue Rechtschreibung,
+• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
+• Korrektur vieler Rechtschreibfehler.
+
+Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.
+
+Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
+gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus.
+
+=== Dateien ===
+Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper kann (derzeitig) hier heruntergeladen werden:
+http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
+
+In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen.
+
+Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden.