From aff1073da93e6b223b18ee376eecf50a4e93567b Mon Sep 17 00:00:00 2001 From: dennis Date: Wed, 5 May 2010 18:33:47 +0000 Subject: Ergänzung: Die Dateien des von Karl Köckemann überarbeiteten Leipziger Korpus (die eigentliche Korpus fehlt jedoch, da 100 MB für eine einzige Datei wohl doch das SVN sprengen würden). MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit git-svn-id: https://svn.neo-layout.org@2310 b9310e46-f624-0410-8ea1-cfbb3a30dc96 --- statistik/Leipzig-Karl/README.txt | 18 ++++++++++++++++++ 1 file changed, 18 insertions(+) create mode 100644 statistik/Leipzig-Karl/README.txt (limited to 'statistik/Leipzig-Karl/README.txt') diff --git a/statistik/Leipzig-Karl/README.txt b/statistik/Leipzig-Karl/README.txt new file mode 100644 index 0000000..6f8d95d --- /dev/null +++ b/statistik/Leipzig-Karl/README.txt @@ -0,0 +1,18 @@ +== Über diesen Korpus == +im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt: +• Umstellung auf die Neue Rechtschreibung, +• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.), +• Korrektur vieler Rechtschreibfehler. + +Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen. + +Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu +gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus. + +=== Dateien === +Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper kann (derzeitig) hier heruntergeladen werden: +http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html + +In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen. + +Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden. -- cgit v1.2.3