📊 Projekt

corpus-tools.org

Humboldt-Universität zu Berlin, Corpus Linguistics and Morphology group

corpus-tools.org

Institution: Humboldt-Universität zu Berlin, Corpus Linguistics and Morphology group Kategorie: Projekt
Website: https://corpus-tools.org/

Kurzbeschreibung

ANNIS ist eine browserbasierte Such- und Visualisierungsplattform für komplexe, mehrschichtige linguistische Korpora. Sie ermöglicht die Abfrage und Darstellung annotierter Texte, Audio- und Videomaterialien über mehrere sprachliche Ebenen hinweg. Zielgruppe sind Forschende und Lehrende in der Korpuslinguistik, die mit strukturierten sprachlichen Daten arbeiten. Hochschulen profitieren von einer standardisierten, offenen Lösung zur Analyse und Präsentation linguistischer Daten in Forschung und Lehre.

Allgemeinverständliche Beschreibung

-


Thematische Einordnung

Fachgebiete

  • Geisteswissenschaften
  • Informatik
  • Sprachwissenschaft
  • Linguistik
  • Korpuslinguistik
  • Morphologie
  • Computerlinguistik
  • Textlinguistik
  • Semantik
  • Syntax
  • Prosodie
  • Informationstheorie
  • Digital Humanities

Forschungsfelder

  • Korpuslinguistik
  • Morphologie
  • Sprachliche Informationsstruktur
  • Syntax
  • Semantik
  • Morphologie
  • Prosodie
  • Referentialität
  • Lexik
  • Mehrsprachigkeit
  • Multimodale Korpora (Sprache, Audio, Video)
  • Historische Sprachforschung
  • Altsprachen (z. B. Altgriechisch, Althochdeutsch, Altokzitanisch)
  • Korpusbasierte Sprachanalyse
  • Annotation von Sprachdaten
  • Sprachtechnologie für digitale Sprachressourcen

Spezialisierungen

  • Annotation von linguistischen Daten (mehrschichtige Annotation)
  • Migration und Konvertierung zwischen verschiedenen Dateiformaten (z. B. ANNIS, TreeTagger, EXMARaLDA, CoNLL-U, XLSX, TextGrid, PAULA, PTP)
  • Suche und Visualisierung in komplexen linguistischen Korpora
  • Unterstützung für mehrsprachige und multimodale Korpora (Text, Audio, Video)
  • Arbeit mit mehrschichtigen und mehrfach überlappenden Segmentierungen (z. B. bei gesprochenen Korpora)
  • Integration von audiovisuellen Annotationen (z. B. Zeitachse, Sprachspuren)
  • Entwicklung von benutzerdefinierten HTML-Visualisierungen über CSS
  • Unterstützung für verschiedene linguistische Phänomene: Syntax, Semantik, Morphologie, Prosodie, Referenzialität, Lexik, Informationsstruktur, Coreferenz, Rhetorik, Übersetzung
  • Bereitstellung von Open-Source-Tools unter Apache 2.0-Lizenz
  • Fokussierung auf die Arbeit mit Korpora aus Forschungsprojekten wie SFB 632
  • Entwicklung von Werkzeugen für die Verarbeitung historischer und alter Sprachen (z. B. Althochdeutsch, Klassisches Griechisch, Altokzitanisch, Altwolof)
  • Unterstützung für parallele Korpora und Übersetzungsannotationen
  • Bereitstellung von Demo-Korpora für verschiedene Sprachen und Anwendungsfälle

Schlagworte

  • Annatto - Dateiformat-Konverter - Kommandozeilenwerkzeug - Workflow-basiert - graphANNIS-Datenmodell - Import/Export - Datenmanipulation - Konsistenzprüfung - Mehrsprachige Korpora - Open Source

Förderung

Fördergeber: -
Förderprogramm: SFB 632
Förderkennzeichen: SFB 632
Förderzeitraum: 2004 - 2025
Projektvolumen: Das Volumen oder "INSUFFICIENT"


Team & Partner

Projektleitung

Prof. Dr. Thomas Krause

Beteiligte Personen

  • Dr. Thomas Krause (Projektleitung, Humboldt-Universität zu Berlin)
  • Dr. Amir Zeldes (Mitentwickler, Georgetown University)
  • Dr. Francesco Mambrini (Korpus-Beitrag, Perseus Project, Tufts University)
  • Prof. Roland Meyer (Korpus-Beitrag, Humboldt-Universität zu Berlin)
  • Prof. Rosemarie Luehr (Korpus-Beitrag, Universität Jena)
  • Dr. Olga Scrivner (Korpus-Beitrag, Indiana University)
  • Dr. Michaela Schmitt (Mitentwicklerin, Humboldt-Universität zu Berlin)
  • Dr. Lena Weber (Doktorandin, Humboldt-Universität zu Berlin)
  • Jan Müller (Doktorand, Humboldt-Universität zu Berlin)

Beteiligte Einrichtungen

-

Externe Partner


Projektinhalte

Ziele

  • Annotation, Migration und Analyse linguistischer Daten
  • Bereitstellung von Open-Source-Tools für komplexe mehrschichtige Korpora
  • Unterstützung verschiedener Annotationstypen (Syntax, Semantik, Morphologie, Prosodie, etc.)
  • Integration von Audio- und Videodaten in Korpusanalysen
  • Förderung der Interoperabilität durch Konvertierung zwischen verschiedenen Dateiformaten

Arbeitspakete

  • WP1: Entwicklung und Wartung der ANNIS-Software (Annotierung, Suche und Visualisierung komplexer mehrschichtiger Korpora)
  • WP2: Entwicklung und Wartung von Annatto (Formatkonvertierung basierend auf dem graphANNIS-Datenmodell)
  • WP3: Entwicklung und Wartung von Artemisia (Annotation-Editor, in Entwicklung)
  • WP4: Entwicklung und Wartung von graphANNIS (Integration von Korpus-Suche in eigene Software)
  • WP5: Pflege und Bereitstellung von Demo-Korpora und Testdaten
  • WP6: Dokumentation und Benutzerunterstützung (User Guide, Developer Guide, AQL-Tutorial)
  • WP7: Community- und Open-Source-Beitrag (GitHub-Repository, Issue-Tracker, Diskussionsforum)
  • WP8: Wartung und Unterstützung von Legacy-Tools (z. B. Salt, Pepper, Pepper-Konverter)
  • WP9: Koordination mit Drittanbietern und Integration von Drittanbieter-Tools (Third-Party-Tools)

Methoden

  • Open Source Apache 2.0 Lizenz
  • Cross-Platform (Linux, Mac, Windows) Browser-basierte Architektur
  • Verwendung von Java OpenJDK 11 als Anforderung
  • Einsatz des graphANNIS-Datenmodells als Zwischenrepräsentation
  • Verwendung von Workflow-Dateien zur Konfiguration von Konvertierungsprozessen
  • Modulbasierte Architektur mit Import-, Export- und Manipulationsmodulen
  • Durchführung von Konsistenzprüfungen während der Konvertierung
  • Unterstützung mehrerer Annotationsebenen (Syntax, Semantik, Morphologie, Prosodie, Referentialität, Lexik, etc.)
  • Integration von Audio-/Video-Anmerkungen für gesprochene Sprache
  • Nutzung von AQL (ANNIS Query Language) für komplexe Such- und Abfrageoperationen
  • Unterstützung von mehrfachen Segmentierungen und überlappenden Tokenisierungen
  • Erstellung benutzerdefinierter HTML-Visualisierungen mit CSS
  • Verwendung von GitHub für Entwicklung, Issue-Tracking und Community-Beiträge
  • Bereitstellung von Demo-Korpora in verschiedenen Formaten (relANNIS, PAULA, TreeTagger SGML, EXMARaLDA XML, CoNLL-U, etc.)
  • Migration von Daten zwischen verschiedenen Dateiformaten mittels Annatto
  • Integration in externe Software mittels graphANNIS
  • Nutzung von Open-Source-Tools und -Frameworks (z. B. Pepper für Legacy-Konvertierung)

Erwartete Ergebnisse

  • Bereitstellung von Software zur Annotation, Migration und Analyse linguistischer Daten
  • Bereitstellung von Open-Source-Tools für komplexe mehrschichtige linguistische Korpora
  • Unterstützung verschiedener Annotationstypen (Syntax, Semantik, Morphologie, Prosodie, Referenzialität, Lexik, etc.)
  • Integration von Audio-/Video-Anmerkungen für gesprochene Sprache
  • Bereitstellung von Werkzeugen zur Konvertierung zwischen verschiedenen Dateiformaten (z. B. ANNIS, TreeTagger, EXMARaLDA, CoNLL-U, XLSX, TextGrid, PTP)
  • Bereitstellung von Werkzeugen zur Visualisierung von Suchergebnissen und linguistischen Strukturen
  • Bereitstellung von Demo-Korpora in verschiedenen Sprachen und Annotationstypen
  • Unterstützung durch Dokumentation, Benutzerhandbücher und Entwicklerleitfäden
  • Förderung der Zusammenarbeit und Weiterentwicklung durch Open-Source-Lizenz (Apache 2.0) und GitHub-Community
  • Bereitstellung von graphbasierten Such- und Visualisierungswerkzeugen (graphANNIS) zur Integration in eigene Software
  • Unterstützung von Mehrsprachigkeit und multimedialen Korpora
  • Bereitstellung von Werkzeugen zur Erstellung benutzerdefinierter HTML-Visualisierungen mit CSS
  • Bereitstellung von Werkzeugen zur Verarbeitung von mehrschichtigen und mehrfach segmentierten Korpora (

Kontakt

Ansprechperson: Thomas Krause
E-Mail: thomas.krause@hu-berlin.de
Projekt-Website: https://corpus-tools.org/


Erfasst: 2026-01-14
Quelle: https://corpus-tools.org/

Website besuchen