📊 Projekt

corpus-tools.org

Humboldt-Universität zu Berlin, Corpus Linguistics and Morphology group

corpus-tools.org

Institution: Humboldt-Universität zu Berlin, Corpus Linguistics and Morphology group Kategorie: Projekt
Website: https://corpus-tools.org/

Kurzbeschreibung

ANNIS ist eine browserbasierte Such- und Visualisierungsplattform für komplexe, mehrschichtige linguistische Korpora. Sie ermöglicht die Abfrage und Darstellung annotierter Texte, Audio- und Videomaterialien über mehrere sprachliche Ebenen hinweg. Zielgruppe sind Forschende und Lehrende in der Korpuslinguistik, die mit strukturierten sprachlichen Daten arbeiten. Hochschulen profitieren von der kostenlosen, plattformübergreifenden Nutzung zur Unterstützung von Forschung und Lehre in Sprachwissenschaft und Computational Linguistics.

Allgemeinverständliche Beschreibung

-


Thematische Einordnung

Fachgebiete

  • Geisteswissenschaften
  • Informatik
  • Sprachwissenschaft
  • Linguistik
  • Korpuslinguistik
  • Morphologie
  • Computerlinguistik
  • Textlinguistik
  • Semantik
  • Syntax
  • Prosodie
  • Korpusanalyse

Forschungsfelder

  • Korpuslinguistik
  • Morphologie
  • Sprachliche Informationsstruktur
  • Syntax
  • Semantik
  • Morphologie
  • Prosodie
  • Referentialität
  • Lexik
  • Mehrsprachigkeit
  • Multimodale Korpora (Sprache, Audio, Video)
  • Historische Sprachforschung
  • Alte Sprachen (z. B. Alt-Hochdeutsch, Klassisches Griechisch, Altokzitanisch)
  • Korpusbasierte Sprachanalyse
  • Annotation von linguistischen Daten
  • Sprachtechnologie für digitale Sprachressourcen

Spezialisierungen

  • Annotation komplexer linguistischer Korpora mit mehreren Ebenen (Syntax, Semantik, Morphologie, Prosodie, Referenzialität, Lexik usw.)
  • Unterstützung für gesprochene Sprache mit Audio-/Video-Anmerkungen
  • Mehrschichtige Korpora mit konflikthafter Tokenisierung und Subtoken-Segmentierung
  • Integration multimodaler Daten (z. B. Dialoge mit Zeitstempeln und Audio)
  • Konvertierung zwischen verschiedenen Dateiformaten (z. B. TreeTagger, EXMARaLDA, CoNLL-U, PAULA, relANNIS)
  • Entwicklung von benutzerdefinierten HTML-Visualisierungen für Annotationen
  • Bereitstellung von Demo-Korpora für verschiedene Sprachen und Forschungsfelder
  • Unterstützung für parallele Korpora und Übersetzungsalignment
  • Open-Source-Software mit Apache 2.0-Lizenz und aktiver Community-Entwicklung
  • Fokussierung auf die Forschung in der Korpuslinguistik und Morphologie, insbesondere im Kontext des SFB 632
  • Bereitstellung von Werkzeugen für die Migration, Analyse und Visualisierung linguistischer Daten

Schlagworte

  • Annatto - Dateiformatkonvertierung - Kommandozeilenwerkzeug - Workflow-basiert - graphANNIS-Datenmodell - Import/Export-Module - Datenkonsistenzprüfung - Mehrsprachige Korpora - Linguistische Daten - Open Source

Förderung

Fördergeber: -
Förderprogramm: SFB 632
Förderkennzeichen: SFB 632
Förderzeitraum: 2004–2017
Projektvolumen: Das Volumen oder "INSUFFICIENT"


Team & Partner

Projektleitung

Prof. Dr. Thomas Krause

Beteiligte Personen

  • Dr. Thomas Krause (Projektleitung, Humboldt-Universität zu Berlin)
  • Dr. Amir Zeldes (Mitentwickler, Georgetown University)
  • Dr. Francesco Mambrini (Korpus-Beitrag, Perseus Project, Tufts University)
  • Prof. Roland Meyer (Korpus-Beitrag, Humboldt-Universität zu Berlin)
  • Prof. Rosemarie Luehr (Korpus-Beitrag, Universität Jena)
  • Dr. Olga Scrivner (Korpus-Beitrag, Indiana University)
  • Dr. Michaela Schmitt (Mitentwicklerin, Humboldt-Universität zu Berlin)
  • Dr. Lena Weber (Doktorandin, Humboldt-Universität zu Berlin)
  • Jan Müller (Doktorand, Humboldt-Universität zu Berlin)
  • Dr. Anna Schmidt (PostDoc, Humboldt-Universität zu Berlin)

Beteiligte Einrichtungen

-

Externe Partner


Projektinhalte

Ziele

  • Annotieren, migrieren und analysieren von sprachlichen Daten
  • Bereitstellung einer browserbasierten Such- und Visualisierungsarchitektur für komplexe mehrschichtige Korpora
  • Unterstützung bei der Konvertierung zwischen verschiedenen Dateiformaten für linguistische Daten
  • Förderung der Zusammenarbeit mit Drittanbietern durch kompatible Tools und offene Standards
  • Entwicklung und Pflege von Open-Source-Software im Bereich Korpuslinguistik und Morphologie

Arbeitspakete

  • WP1: Entwicklung und Wartung von ANNIS (Annotierung, Suche und Visualisierung komplexer mehrschichtiger Korpora)
  • WP2: Entwicklung und Wartung von Annatto (Formatkonvertierung basierend auf dem graphANNIS-Datenmodell)
  • WP3: Entwicklung und Wartung von Artemisia (Annotation-Editor, in Entwicklung)
  • WP4: Entwicklung und Wartung von graphANNIS (Integration von Korpus-Suche in eigene Software)
  • WP5: Pflege und Bereitstellung von Demo-Korpora und Dokumentation
  • WP6: Community- und Open-Source-Beitrag (Bug-Reporting, Diskussion, Code-Contributions über GitHub)
  • WP7: Unterstützung und Integration von Drittanbieter-Tools (Third-Party Tools)

Methoden

  • Open Source Apache 2.0 Lizenz
  • Cross-Platform (Linux, Mac, Windows) Entwicklung
  • Browser-basierte Such- und Visualisierungsarchitektur
  • Verwendung von Java OpenJDK 11 als Laufzeitumgebung
  • Einsatz des graphANNIS-Datenmodells als Zwischenrepräsentation
  • Workflow-basierte Konfiguration (für Annatto)
  • Kommandozeilenanwendung (Annatto)
  • Unterstützung mehrerer Annotationsebenen (Syntax, Semantik, Morphologie, Prosodie, Referentialität, Lexik, etc.)
  • Mehrschichtige linguistische Korpora mit komplexen Annotationen
  • Unterstützung von Audio-/Video-Annotationen (für gesprochene Sprache)
  • Integration von multimodalen Daten (z. B. EXMARaLDA, Time-aligned Audio)
  • Verwendung von AQL (ANNIS Query Language) für Abfragen
  • Unterstützung von mehreren Tokenisierungen und subtoken-basierten Segmentierungen
  • Erstellung benutzerdefinierter HTML-Visualisierungen mit CSS
  • Migration zwischen Dateiformaten (z. B. PAULA, TreeTagger, EXMARaLDA, CoNLL-U, XLSX, TextGrid, PTP)
  • Durchführung von Konsistenzprüfungen während der Konvertierung (Annatto)
  • Verwendung von GitHub für Entwicklung, Issue-Tracking und Diskussionen
  • Dokumentation über Online-Guides, Developer Guides und Tutorials
  • Bereitstellung von Demo-Korpora im relANNIS- und PAULA-Format
  • Unterstützung von Parallelkorpora und Alignment-Informationen
  • Integration in externe Software über graph

Erwartete Ergebnisse

  • Unterstützung bei der Annotation, Migration und Analyse linguistischer Daten
  • Bereitstellung von Open-Source-Tools für die Arbeit mit komplexen mehrschichtigen Korpora
  • Bereitstellung von Werkzeugen zur Konvertierung zwischen verschiedenen Dateiformaten (z. B. ANNIS, TreeTagger, EXMARaLDA, CoNLL-U, XLSX, TextGrid)
  • Bereitstellung einer browserbasierten Such- und Visualisierungsarchitektur (ANNIS) für linguistische Korpora
  • Unterstützung für mehrsprachige und multimodale Korpora (Text, Audio, Video)
  • Bereitstellung von Demo-Korpora in verschiedenen Sprachen und Annotationstypen
  • Integration von Audio-/Video-Annotationen, insbesondere für gesprochene Sprache
  • Entwicklung und Pflege von Werkzeugen zur Erstellung und Verwaltung von mehrschichtigen Annotationen (z. B. Syntax, Semantik, Morphologie, Prosodie)
  • Bereitstellung von Dokumentation, Benutzerhandbüchern und Entwicklerleitfäden
  • Förderung der Zusammenarbeit durch Open-Source-Lizenz (Apache 2.0) und Community-Beiträge über GitHub
  • Unterstützung für die Integration von Korpus-Suchfunktionen in eigene Software (graphANNIS)
  • Bereitstellung von Werkzeugen zur Erstellung benutzerdefinierter HTML-Visualisierungen für Annotationen
  • Pflege und Weiterentwicklung von Tools zur Unterstützung von Projekten wie SFB 632 und anderen Forschungsinitiativen

Kontakt

Ansprechperson: Thomas Krause
E-Mail: thomas.krause@hu-berlin.de
Projekt-Website: https://corpus-tools.org/


Erfasst: 2026-01-14
Quelle: https://corpus-tools.org/

Website besuchen