📊 Projekt

Computational Literary Studies Infrastructure (CLS INFRA)

Institute of Polish Language at the Polish Academy of Sciences

Computational Literary Studies Infrastructure (CLS INFRA)

Institution: Institute of Polish Language at the Polish Academy of Sciences Kategorie: Projekt
Website: https://clsinfra.io/

Kurzbeschreibung

Das CLS INFRA-Projekt entwickelt eine gemeinsame Infrastruktur für die computationale Literaturwissenschaft, um heterogene Daten, Werkzeuge und Methoden zu standardisieren und zu verknüpfen. Zielgruppe sind Forschende in der Literaturwissenschaft, Digital Humanities und verwandten Disziplinen, insbesondere an Hochschulen. Der Hauptnutzen liegt in der Verbesserung des Zugriffs auf multilinguale literarische Korpora, der Förderung von Reproduzierbarkeit und der Erleichterung der Zusammenarbeit über nationale und disziplinäre Grenzen hinweg.

Allgemeinverständliche Beschreibung

Thematische Einordnung

Fachgebiete

Geisteswissenschaften
Informatik
Digital Humanities
Literaturwissenschaft
Computational Literary Studies
Sprachwissenschaft
Kulturwissenschaften
Datenmanagement
Open Science
Maschinelles Lernen
Naturwissenschaften (indirekt über NLP und Datenanalyse)

Forschungsfelder

Computational Literary Studies
Natural Language Processing (NLP)
Stylometry / Computational Stylistics
Multilingual Text Analysis
Digital Humanities
Text Mining
Named Entity Recognition (NER)
Relational Extraction (REX)
Sentiment Analysis (SA)
Aspect-Based Sentiment Analysis (ABSA)
Programmatic Corpora
Linked Open Data
Data Curation and Sharing
Metadata Standards for Literary Corpora
Literary Network Analysis
Genre Analysis
Authorship Attribution
Literary History
Gender Analysis
Canonicity Studies
Digital Editions
Text Encoding Initiative (TEI)
Corpus Enrichment
Machine Learning in Humanities
Computational Semantics
Cross-Lingual Transfer Learning
Historical Social Network Analysis
Digital Cultural Heritage
Open Science
Research Data Management
Transnational Access to Research Infrastructures
Training and Skills Development in Digital Humanities

Spezialisierungen

Computational Literary Studies (CLS)
Entwicklung gemeinsamer Daten-, Werkzeug- und Wissensressourcen
Standardisierung und Interoperabilität von literarischen Daten
Multilinguale und transnationale literarische Forschung
Programmable Corpora (programmierbare Korpora)
Natural Language Processing (NLP) für literarische Texte
Stilometrie und computergestützte Stilanalyse
Datenannotation und -enrichment
Open Science und Daten-Sharing-Praktiken
Transnationale Zugangsförderung (Transnational Access, TNA)
Training und Skill-Development für Forschende
Forschungsinfrastruktur für digitale Geisteswissenschaften
Verbindung von Forschung, Bibliotheken und GLAM-Sektoren (Galleries, Libraries, Archives, Museums)
Anwendung von CLS außerhalb der akademischen Forschung (Journalismus, Politik, Medizin, Kultur)
Entwicklung von APIs und Toolkits für Forschung
Forschung zu Kanonbildung und literarischer Qualität
Historische Netzwerkanalyse und soziale Netzwerke in der Literatur
Digitale Editionen und Textverarbeitung
Verwendung von KI und generativer KI (z. B. Retrieval-Augmented Generation) in der Literaturwissenschaft

Schlagworte

CLS INFRA - Computational Literary Studies - Programmable Corpora - DraCor - NLP Toolchains - Multilingual Literary Data - TEI Standard - Transnational Access - Training Schools - Open Science

Förderung

Fördergeber: -
Förderprogramm: Horizon 2020
Förderkennzeichen: 101004984
Förderzeitraum: 2022-2025
Projektvolumen: 1.5 Mio. Euro

Team & Partner

Projektleitung

Prof. Maciej Eder (Institute of Polish Language, Polish Academy of Sciences)

Beteiligte Personen

Dr. Julie M. Birkholz (Assistant Professor Digital Humanities, Lead of KBR’s Digital Research Lab)
Ingo Börner (Research Associate, University of Potsdam)
Ruth Bruchertseifer (Researcher)
Floor Buschenhenke (Researcher)
Joanna Byszuk (Research Associate, Computational Stylistics Group)
Sally Chambers (Digital Humanities Research Coordinator, Ghent Centre for Digital Humanities)
Mag. Phil. Vera Maria Charvat (Researcher)
Mgr. Silvie Cinková Ph.D. (Researcher, Charles University)
Tess Dejaeghere (Researcher)
Anna Dijkstra (Work Package 4 Coordinator)
Julia Dudar (Researcher)
DI Matej Ďurčo (Researcher)
Evgeniia Fileva (Researcher, University of Trier)
Vicky Garnett (Training and Education Officer, DARIAH-EU)
Françoise Gouzi (Open Science Officer, DARIAH-EU)
Dr. Sarah Hoover (Postdoctoral Researcher, NUI Galway)
Bartłomiej Kunda (Coordinating Manager, Institute of Polish Language)
Prof. Dr. Els Lefever (Associate Professor, Ghent University)
PD Dr. Michał Mrugalski (Researcher)
Dr. Ciara L. Murphy (Postdoctoral Researcher, NUI Galway)
Dr. Carolin Odebrecht (Researcher)
Eliza Papaki (Researcher)
Marco Raciti (Researcher)
Dr. Emily Ridge (Lecturer, National University of Ireland Galway)
Ass. Prof. Salvador

Beteiligte Einrichtungen

Externe Partner

Austrian Academy of Sciences
Charles University
Digital Research Infrastructure for the Arts and Humanities
Ghent Centre for Digital Humanities, Ghent University
Belgrade Centre for Digital Humanities
Huygens Institute for the History of the Netherlands (Royal Netherlands Academy of Arts and Sciences)
Trier Center for Digital Humanities, Trier University
Moore Institute, National University of Ireland Galway
The Trinity Centre for Digital Humanities, Trinity College Dublin
National University of Distance Education
École Normale Supérieure de Lyon
Humboldt University of Berlin
Institute of Polish Language at the Polish Academy of Sciences
University of Potsdam

Projektinhalte

Ziele

Aufbau einer gemeinsamen, nachhaltigen Infrastruktur für die computationale Literaturwissenschaft in Europa
Standardisierung und Vereinheitlichung von Daten, Werkzeugen und Methoden in der Literaturwissenschaft
Verbesserung des Zugangs und der Wiederverwendbarkeit multilinguistischer literarischer Daten
Förderung der Zusammenarbeit zwischen gut und schlecht ausgestatteten Forschungseinrichtungen
Erweiterung der Anwendungsmöglichkeiten computationaler Methoden über die akademische Forschung hinaus (z. B. in Journalismus, Politik, Medizin)

Arbeitspakete

WP1: Project Management and Coordination
WP2: Communication, Dissemination, and Exploitation
WP3: Methodological Considerations and Community Building
WP4: Training and Skills Development
WP5: Data Landscape Review and Institutional Perspectives
WP6: Data Inventory and Toolkit Development
WP7: Building the Ecosystem of Programmable Corpora
WP8: NLP Toolchains and Corpus Enrichment
WP9: Transnational Access (TNA) Programme

Methoden

Stylometrie (Multilingual Stylometry Showcase)
Netzwerkanalyse (Detecting Small Worlds in a Corpus of Thousands of Theater Plays)
Aspektbasierte Sentimentanalyse (ABSA) (D8.5 Report on Applied NLP Sentiment Analysis)
Named Entity Recognition (NER) (D8.3 Report on Applied NLP Named Entity Recognition)
Relational Extraction (REX) (D8.4 Report on NLP Relational Extraction)
Textmining
Natural Language Processing (NLP)
Programmable Corpora (D7.1: On programmable Corpora and DraCor)
TEI (Text Encoding Initiative) und TEI-Standardisierung
Transformation Toolbox (VELD: Versioned Executable Logic and Data)
Datenintegration und -interoperabilität
Metadatenanalyse und -standardisierung
Corpus-Enrichment
Datenplanung und -design
Datenbereitstellung und -verarbeitung
Datenarchivierung und -publikation
Datenwiederverwendung
Open Science und Open Access
Forschungsdatenlebenszyklus (Research Data Life Cycle)
Qualitative und quantitative Datenanalyse
Quantitative Ansätze zur Stilvariation
Distant Reading
Computational Stylistics
Historische soziale Netzwerkanalyse
Multimodale Stylometrie
Maschinel

Erwartete Ergebnisse

Aufbau einer gemeinsamen, nachhaltigen Infrastruktur für die computergestützte Literaturwissenschaft (CLS) in Europa
Standardisierung und Vereinheitlichung heterogener literarischer Daten, Methoden und Tools
Verbesserung der Zugänglichkeit und Wiederverwendbarkeit von literarischen Daten durch einheitliche Metadaten und Formate
Schaffung eines zentralen Katalogs (CLSCor) zur Discovery und Integration von literarischen Korpora und Werkzeugen
Entwicklung von Programmierbaren Korpora (Programmable Corpora) mit offenen APIs für maschinenlesbare Texte
Erweiterung der multilingualen NLP-Werkzeugkette für die literarische Forschung, insbesondere für weniger ressourcenreiche Sprachen
Bereitstellung von Trainingsmaterialien und Schulungen (Training Schools) zur Stärkung der Kompetenzen in CLS
Förderung der Transnationalen Zugangsförderung (TNA) für Forschende aus verschiedenen Ländern und Institutionen
Schaffung eines umfassenden Toolkits für datenbasierte Forschung und den Austausch von Daten im Forschungsprozess
Erhöhung der Reproduzierbarkeit und Nachvollziehbarkeit von Forschungsergebnissen durch Versionierung von Korpora und APIs
Stärkung der Zusammenarbeit zwischen Forschungseinrichtungen, Bibliotheken, GLAM-Sektoren und anderen Akteuren
Erweiterung der Anwendungsmöglichkeiten von CLS über die akademische

Kontakt

Ansprechperson: - Dr. Julie M. Birkholz - Ingo Börner - Ruth Bruchertseifer - Floor Buschenhenke - Joanna Byszuk - Sally Chambers - Mag. Phil. Vera Maria Charvat - Mgr. Silvie Cinková Ph.D. - Tess Dejaeghere - Anna Dijkstra - Julia Dudar - DI Matej Ďurčo - Prof. Maciej Eder - Dr Jennifer Edmond - Evgeniia Fileva - Vicky Garnett - Françoise Gouzi - Dr Sarah Hoover - Bartłomiej Kunda - Prof. Dr. Els Lefever - PD Dr. Michał Mrugalski - Dr Ciara L. Murphy - Dr. Carolin Odebrecht - Eliza Papaki - Marco Raciti - Dr Emily Ridge - Ass. Prof. Salvador Ros - Prof. Dr. Christof Schöch - Dr Artjoms Šeļa - Dr Justin Tonra - Dr. Erzsébet Tóth-Czifra - Prof Dr Peer Trilcke - Prof. Dr Karina van Dalen-Oskam - Lisanne M. van Rossum rMA - Vera Yakupova - Dr Joris van Zundert
E-Mail: info@clsinfra.io
Projekt-Website: https://clsinfra.io/

Erfasst: 2026-01-14
Quelle: https://clsinfra.io/

Website besuchen

Informationen

Institution: Institute of Polish Language at the Polish Academy of Sciences

Kontakt

Ansprechperson: - Prof. Maciej Eder (Institute of Polish Language, Polish Academy of Sciences)
E-Mail: info@clsinfra.io

Kategorie: Projekt
Hinzugefügt: 31.01.2026
Quelle: Originalwebsite ↗