Code-Dokumentation zur Abschlussarbeit "Ähnlichkeiten von Rechtsprechungstexten - Entwurf einer netzwerkbasierten Empfehlungsfunktion für Gerichtsentscheidungen" im Studiengang Angewandte Informatik an der HTW Berlin. Realisiert mit Unterstützung des Data Analytics Center des Fraunhofer FOKUS (Berlin).
I. Daten: Akquise → Vorbereitung (filtern, restrukturieren, säubern) → Analyse (s. scripts & 1. Notebook)
II. Zitate: Extraktion (& deren Evaluation) → Analyse → Abbildung auf Dokumente (s. 2. & 3. Notebook)
III. Empfehlungsfunktion/en für Gerichtsentscheidungen:
a) netzwerkbasierte Empfehlungsfunktion: Aufbau und Analyse des Zitationsnetzwerks → Entwicklung des Empfehlungsalgorithmus → experimentelle Evaluation (s. 4. Notebook)
vergleichend zu a):
b) textbasierte Empfehlungsfunktion: Vorbereitung Trainingskorpus → Training word2vec-Modell → Erzeugung von Dokumentenvektoren → Entwicklung textbasierte Empfehlungsfunktion → experimentelle Evaluation (s. 5. Notebook)
c) hybride Empfehlungsfunktion: Kombination der Verfahren aus a) und b) → experimentelle Evaluation (s. 6. Notebook)
IV. Gesamtevaluation durch Expertengruppe
-
Exploration und (weitere) Bereinigung der Daten; Zusammenführung von Textfragmenten.
-
Extraktion von Rechtsprechungszitaten (auf Basis des zuvor mit ler.conll trainierten CRF-Modells nach Legal-Entity-Recognition) aus allen im Datensatz enthaltenen Gründe- sowie Tenor-Texte; Exploration und Analyse der Resulate; Abbildung der Zitate auf Dokumente.
-
EvaluationCitationExtraction :
Kleine Evaluation der Güte des Extraktionsverfahrens aus 2.
-
Erzeugung und Analyse eines Zitationsnetzwerks der Rechtsprechungen; Entwicklung eines netzwerkbasierten Empfehlungsalgorithmus für gerichtliche Entscheidungen; anekdotische Evaluation des Verfahrens; Vorbereitung der Gesamtevaluation - Teil I: netzwerkbasierte Empfehlungen.
-
Preprocessing des Trainingskorpus für word2vec-Verfahren; Training des word2vec-Modells; stichprobenartige Evaluation der word embeddings; Erzeugung von Dokumentenembeddings; visuelle und stichprobenartige Evaluation der Dokumentenembeddings durch Clustering; Entwicklung der textbasierte Empfehlungsfunktion für Rechtsprechungen; anekdotische Evaluation; Vorbereitung der Gesamtevaluation - Teil II: textbasierte Empfehlungen.
-
Berechnung der hybriden Leseempfehlungen für Rechtsprechungen; anekdotische Evaluation; Vorbereitung Gesamtevaluation - Teil III: hybride Empfehlungen.
Hint: If you can't view the notebooks here have them rendered with nbviewer.
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.