summaryrefslogtreecommitdiff
path: root/statistik
diff options
context:
space:
mode:
Diffstat (limited to 'statistik')
-rw-r--r--statistik/Leipzig-Karl/README.txt17
1 files changed, 11 insertions, 6 deletions
diff --git a/statistik/Leipzig-Karl/README.txt b/statistik/Leipzig-Karl/README.txt
index 6f8d95d..229b2c3 100644
--- a/statistik/Leipzig-Karl/README.txt
+++ b/statistik/Leipzig-Karl/README.txt
@@ -1,16 +1,21 @@
== Über diesen Korpus ==
-im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt:
-• Umstellung auf die Neue Rechtschreibung,
+im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei manuell bereinigt und überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt:
+• Umstellung auf die Neue Rechtschreibung gemäß Rechtschreibduden,
+• d. h. alte Rechtschreibung kommt in der nun vorgestellten Datei kaum noch vor.
• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
• Korrektur vieler Rechtschreibfehler.
-Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.
+Des weiteren wurden (nach dem Entfernen der Zeilennummern) jeweils 5 Sätze zu einem Absatz zusammengefügt, wodurch die Häufigkeit für die Enter-Taste in etwa ihrer tarsächlichen Häufigkeit entsprechen sollte.
-Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
-gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus.
+Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten (es ging da nur noch um den Rest der von einem Punkt gefolgten Einzelgroßbuchstaben wie z. B. in »George W. Bush«, was wahrscheinlich sowieso wenig relevant sein dürfte), kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.
+
+== Einsatzmöglichkeit ==
+Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus und sollte etwa für computergestützte Analyen und Optimierungungen verwendet werden.
+
+Wegen der Neuen Rechtschreibung wird das ß sicherlich weniger, das s häufiger vorkommen als in anderen Korpussen – es könnte sein, dass wir hiermit die erste öffentlich zugängliche Zeichenhäufigkeitsliste zu einem nicht kleinen Korpus haben, der auf der Neuen Rechtschreibung basiert.
=== Dateien ===
-Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper kann (derzeitig) hier heruntergeladen werden:
+Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper (Größe: 100 MB komprimiert / 300 MB unkomprimiert) kann (derzeitig) hier heruntergeladen werden:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen.