📊 Projekt

corpus-tools.org

Humboldt-Universität zu Berlin, Corpus Linguistics and Morphology group

corpus-tools.org

Institution: Humboldt-Universität zu Berlin, Corpus Linguistics and Morphology group Kategorie: Projekt
Website: https://corpus-tools.org/

Kurzbeschreibung

ANNIS ist eine browserbasierte Such- und Visualisierungsplattform für komplexe, mehrschichtige linguistische Korpora. Sie ermöglicht die Abfrage und Darstellung annotierter Texte, Audio- und Videomaterialien über mehrere sprachliche Ebenen hinweg. Zielgruppe sind Forschende und Lehrende in der Korpuslinguistik, die mit strukturierten sprachlichen Daten arbeiten. Hochschulen profitieren von einer standardisierten, offenen Lösung zur Analyse und Präsentation linguistischer Daten in Forschung und Lehre.

Allgemeinverständliche Beschreibung

Thematische Einordnung

Fachgebiete

Geisteswissenschaften
Informatik
Sprachwissenschaft
Linguistik
Korpuslinguistik
Morphologie
Computerlinguistik
Textlinguistik
Semantik
Syntax
Prosodie
Informationstheorie
Digital Humanities

Forschungsfelder

Korpuslinguistik
Morphologie
Sprachliche Informationsstruktur
Syntax
Semantik
Morphologie
Prosodie
Referentialität
Lexik
Mehrsprachigkeit
Multimodale Korpora (Sprache, Audio, Video)
Historische Sprachforschung
Altsprachen (z. B. Altgriechisch, Althochdeutsch, Altokzitanisch)
Korpusbasierte Sprachanalyse
Annotation von Sprachdaten
Sprachtechnologie für digitale Sprachressourcen

Spezialisierungen

Annotation von linguistischen Daten (mehrschichtige Annotation)
Migration und Konvertierung zwischen verschiedenen Dateiformaten (z. B. ANNIS, TreeTagger, EXMARaLDA, CoNLL-U, XLSX, TextGrid, PAULA, PTP)
Suche und Visualisierung in komplexen linguistischen Korpora
Unterstützung für mehrsprachige und multimodale Korpora (Text, Audio, Video)
Arbeit mit mehrschichtigen und mehrfach überlappenden Segmentierungen (z. B. bei gesprochenen Korpora)
Integration von audiovisuellen Annotationen (z. B. Zeitachse, Sprachspuren)
Entwicklung von benutzerdefinierten HTML-Visualisierungen über CSS
Unterstützung für verschiedene linguistische Phänomene: Syntax, Semantik, Morphologie, Prosodie, Referenzialität, Lexik, Informationsstruktur, Coreferenz, Rhetorik, Übersetzung
Bereitstellung von Open-Source-Tools unter Apache 2.0-Lizenz
Fokussierung auf die Arbeit mit Korpora aus Forschungsprojekten wie SFB 632
Entwicklung von Werkzeugen für die Verarbeitung historischer und alter Sprachen (z. B. Althochdeutsch, Klassisches Griechisch, Altokzitanisch, Altwolof)
Unterstützung für parallele Korpora und Übersetzungsannotationen
Bereitstellung von Demo-Korpora für verschiedene Sprachen und Anwendungsfälle

Schlagworte

Annatto - Dateiformat-Konverter - Kommandozeilenwerkzeug - Workflow-basiert - graphANNIS-Datenmodell - Import/Export - Datenmanipulation - Konsistenzprüfung - Mehrsprachige Korpora - Open Source

Förderung

Fördergeber: -
Förderprogramm: SFB 632
Förderkennzeichen: SFB 632
Förderzeitraum: 2004 - 2025
Projektvolumen: Das Volumen oder "INSUFFICIENT"

Team & Partner

Projektleitung

Prof. Dr. Thomas Krause

Beteiligte Personen

Dr. Thomas Krause (Projektleitung, Humboldt-Universität zu Berlin)
Dr. Amir Zeldes (Mitentwickler, Georgetown University)
Dr. Francesco Mambrini (Korpus-Beitrag, Perseus Project, Tufts University)
Prof. Roland Meyer (Korpus-Beitrag, Humboldt-Universität zu Berlin)
Prof. Rosemarie Luehr (Korpus-Beitrag, Universität Jena)
Dr. Olga Scrivner (Korpus-Beitrag, Indiana University)
Dr. Michaela Schmitt (Mitentwicklerin, Humboldt-Universität zu Berlin)
Dr. Lena Weber (Doktorandin, Humboldt-Universität zu Berlin)
Jan Müller (Doktorand, Humboldt-Universität zu Berlin)

Beteiligte Einrichtungen

Externe Partner

Projektinhalte

Ziele

Annotation, Migration und Analyse linguistischer Daten
Bereitstellung von Open-Source-Tools für komplexe mehrschichtige Korpora
Unterstützung verschiedener Annotationstypen (Syntax, Semantik, Morphologie, Prosodie, etc.)
Integration von Audio- und Videodaten in Korpusanalysen
Förderung der Interoperabilität durch Konvertierung zwischen verschiedenen Dateiformaten

Arbeitspakete

WP1: Entwicklung und Wartung der ANNIS-Software (Annotierung, Suche und Visualisierung komplexer mehrschichtiger Korpora)
WP2: Entwicklung und Wartung von Annatto (Formatkonvertierung basierend auf dem graphANNIS-Datenmodell)
WP3: Entwicklung und Wartung von Artemisia (Annotation-Editor, in Entwicklung)
WP4: Entwicklung und Wartung von graphANNIS (Integration von Korpus-Suche in eigene Software)
WP5: Pflege und Bereitstellung von Demo-Korpora und Testdaten
WP6: Dokumentation und Benutzerunterstützung (User Guide, Developer Guide, AQL-Tutorial)
WP7: Community- und Open-Source-Beitrag (GitHub-Repository, Issue-Tracker, Diskussionsforum)
WP8: Wartung und Unterstützung von Legacy-Tools (z. B. Salt, Pepper, Pepper-Konverter)
WP9: Koordination mit Drittanbietern und Integration von Drittanbieter-Tools (Third-Party-Tools)

Methoden

Open Source Apache 2.0 Lizenz
Cross-Platform (Linux, Mac, Windows) Browser-basierte Architektur
Verwendung von Java OpenJDK 11 als Anforderung
Einsatz des graphANNIS-Datenmodells als Zwischenrepräsentation
Verwendung von Workflow-Dateien zur Konfiguration von Konvertierungsprozessen
Modulbasierte Architektur mit Import-, Export- und Manipulationsmodulen
Durchführung von Konsistenzprüfungen während der Konvertierung
Unterstützung mehrerer Annotationsebenen (Syntax, Semantik, Morphologie, Prosodie, Referentialität, Lexik, etc.)
Integration von Audio-/Video-Anmerkungen für gesprochene Sprache
Nutzung von AQL (ANNIS Query Language) für komplexe Such- und Abfrageoperationen
Unterstützung von mehrfachen Segmentierungen und überlappenden Tokenisierungen
Erstellung benutzerdefinierter HTML-Visualisierungen mit CSS
Verwendung von GitHub für Entwicklung, Issue-Tracking und Community-Beiträge
Bereitstellung von Demo-Korpora in verschiedenen Formaten (relANNIS, PAULA, TreeTagger SGML, EXMARaLDA XML, CoNLL-U, etc.)
Migration von Daten zwischen verschiedenen Dateiformaten mittels Annatto
Integration in externe Software mittels graphANNIS
Nutzung von Open-Source-Tools und -Frameworks (z. B. Pepper für Legacy-Konvertierung)

Erwartete Ergebnisse

Bereitstellung von Software zur Annotation, Migration und Analyse linguistischer Daten
Bereitstellung von Open-Source-Tools für komplexe mehrschichtige linguistische Korpora
Unterstützung verschiedener Annotationstypen (Syntax, Semantik, Morphologie, Prosodie, Referenzialität, Lexik, etc.)
Integration von Audio-/Video-Anmerkungen für gesprochene Sprache
Bereitstellung von Werkzeugen zur Konvertierung zwischen verschiedenen Dateiformaten (z. B. ANNIS, TreeTagger, EXMARaLDA, CoNLL-U, XLSX, TextGrid, PTP)
Bereitstellung von Werkzeugen zur Visualisierung von Suchergebnissen und linguistischen Strukturen
Bereitstellung von Demo-Korpora in verschiedenen Sprachen und Annotationstypen
Unterstützung durch Dokumentation, Benutzerhandbücher und Entwicklerleitfäden
Förderung der Zusammenarbeit und Weiterentwicklung durch Open-Source-Lizenz (Apache 2.0) und GitHub-Community
Bereitstellung von graphbasierten Such- und Visualisierungswerkzeugen (graphANNIS) zur Integration in eigene Software
Unterstützung von Mehrsprachigkeit und multimedialen Korpora
Bereitstellung von Werkzeugen zur Erstellung benutzerdefinierter HTML-Visualisierungen mit CSS
Bereitstellung von Werkzeugen zur Verarbeitung von mehrschichtigen und mehrfach segmentierten Korpora (

Kontakt

Ansprechperson: Thomas Krause
E-Mail: thomas.krause@hu-berlin.de
Projekt-Website: https://corpus-tools.org/

Erfasst: 2026-01-14
Quelle: https://corpus-tools.org/

Website besuchen

Informationen

Institution: Humboldt-Universität zu Berlin, Corpus Linguistics and Morphology group

Kontakt

Ansprechperson: Prof. Dr. Thomas Krause
E-Mail: thomas.krause@hu-berlin.de

Kategorie: Projekt
Hinzugefügt: 31.01.2026
Quelle: Originalwebsite ↗