Die ZuMult-Plattform als Instrument für sprachvergleichende Analysen auf mündlichen Daten

20260 citationsJournal Articlegreen Open Access

Authors

Thomas Schmidt · University of Music Würzburg

Lotfi Abouda · Université d'Orléans

Flora Badin · Centre National de la Recherche Scientifique

Hans C. Boas · The University of Texas at Austin

Margaret Marie Blevins

Kristin Bührig · Universität Hamburg

Céline Dugua

Christian Fandrych

Abstract

“[Tools widely used by corpus linguists] all offer a different user-experience, because each tool is created in isolation and thus offers a different user interface, control flow, and functionality.” (Anthony 2009) Nur wenige größere Korpora sind aus sich heraus auf sprachvergleichende Analysen angelegt. Zu den von Vorneherein als „Comparable Corpus“ konzipierten Ausnahmen gehören das International Comparable Corpus (ICC, Čermáková et al. 2021) oder das mehrsprachige GeWiss-Korpus (Fandrych et al. 2017). Ein alternativer oder ergänzender Ansatz sind virtuelle vergleichbare Korpora wie EuReCo (Trawínski & Kupietz 2021), die über Föderation verteilter, auf vergleichbarer technischer Basis stehender Korpora und Korpusplattformen ermöglichen, das Deutsche kontrastiv mit anderen europäischen Sprachen in Beziehung zu setzen; EuReCo ist allerdings auf schriftsprachliche Daten beschränkt. Unser Beitrag stellt die ZuMult-Plattform (Fandrych et al. 2023) und deren Potential, Vergleichbares für mündliche Korpora zu leisten, vor. ZuMult ist eine offene, flexible, auf etablierten Standards und Technologien basierende Architektur für den Zugang zu audiovisuellen Korpora. Neben Korpusrecherchen mit CQP unterstützt ZuMult die für eine Analyse gesprochener Sprache notwendige erweiterte Kontextualisierung von Suchergebnissen (Frick & Schmidt 2025) sowie interaktive Transkriptanalysen (Schmidt et al. 2023), die insbesondere für qualitativ orientierte Analysen, z.B. in der Gesprächsforschung, und für didaktische Anwendungen, z.B. in der DaF/DaZ-Lehre, genutzt werden. An der Universität Duisburg-Essen erfolgt eine Erweiterung, die darauf zielt, Sprache auch in ihrem multimodalen Zusammenspiel mit weiteren körperlichen Ressourcen – wie Blick, Gestik etc. – für korpuslinguistische Herangehensweisen zu erschließen. Über eine ZuMult-Instanz am Archiv für Gesprochenes Deutsch sind bereits seit 2021 neben dem GeWiss-Korpus zwei der wichtigsten Referenzkorpora des gesprochenen Deutsch – FOLK (Deppermann & Hartung 2011, Schmidt 2016, Reineke et al. 2023) und Deutsch Heute (Kleiner 2015) – zugänglich. Mit der Veröffentlichung einer ZuMult-Instanz für das französische ESLO-Korpus (Abouda & Baude 2006, Baude & Dugua 2011, Eshkol-Taravella 2012, Schmidt 2025) ergeben sich nun erste Möglichkeiten für sprachvergleichende Analysen zwischen dem Deutschen und dem Französischen. Wie unser Beitrag anhand von Proof-Of-Concept-Implementierungen zeigen wird, sind beispielsweise auch das Griffith Corpus of Spoken Australian English (Haugh & Chang 2013), das TIGR Corpus des gesprochenen Italienisch (Miecznikowski-Fuenfschilling et al. i.V.), das Training Corpus of Spoken Slovenian (Verdonik 2024) und die Kollektionen aus Oral History Digital (Pagenstecher 2024) in ZuMult integrierbar. Gleiches gilt für das zwölfsprachige EXMARaLDA-Demokorpus, das derzeit im Rahmen eines Text+-Kooperationsprojekt für eine Publikation in einer ZuMult-Instanz an der Universität Hamburg aufbereitet wird. Auf ähnliche Weise eröffnet ZuMult neue Möglichkeiten der „vergleichenden Sprachinselforschung“ (Boas 2016), also der (korpusgestützten) Analyse von Sprachkontaktphänomenen und Sprachentwicklung von Deutsch als Minderheitensprache im Kontakt mit dominanten anderen (i.d.R. europäischen) Sprachen. Seit Dezember 2024 macht eine ZuMult-Instanz an der University of Texas in Austin (Boas et al. 2025) die Daten des Texas German Dialect Projects auf ähnliche Weise verfügbar, wie die IDS-Instanz Zugriff etwa auf Daten zum Australiendeutsch (Clyne 1981), Deutsch in Namibia (Zimmer et al. 2020) oder Mennonitendeutsch in Amerika (Kaufmann et al. 2023) bietet. Unser Beitrag wird diese verschiedenen Anwendungen vorstellen und illustrieren, sowie einige methodische Herausforderungen der Mehrsprachigkeit (z.B. sprachübergreifendes POS-Tagging) und technische Ansätze zur Aggregation von Suchanfragen an mehrere ZuMult-Instanzen (CLARIN Federated Content Search) thematisieren. Keywords: gesprochene Sprache; Korpusplattform; kontrastive Analyse; Kontaktvarietäten Referenzen Abouda, L. & Baude, O. (2006). Constituer et exploiter un grand corpus oral : Choix et enjeux théoriques. Le cas des ESLO. Corpus en Lettres et Sciences sociales, Des documents numériques à l'interprétation, 2006, Albi, France. Baude, O. et Dugua, C. (2011). (Re)faire le corpus d’Orléans quarante ans après : quoi de neuf, linguiste?, Corpus, 10 | 2011, 99-118. Anthony, L. (2009). Issues in the design and development of software tools for corpus studies: The case for collaboration. In: Baker, P. (Hg.), Contemporary corpus linguistics. London: Continuum Press, 87-104. Boas, H. C. (2016). Variation im Texasdeutschen: Implikationen für eine vergleichende Sprachinselforschung (‘Implications for comparable speech island reseach‘). In Alexandra Lenz (ed.), German Abroad. Perspektiven der Variationslinguistik, Sprachkontakt- und Mehrsprachigkeitsforschung, 11-44. Vienna University Press. Boas, H. C., Blevins, M. & Schmidt, T. (2025). A new corpus platform for the Texas German Dialect Project. Erscheint in: Language Resources and Evaluation. Springer. Čermáková, A., Jantunen, J., Jauhiainen, T., Kirk, J., Kren, M., Kupietz, M. & Uí Dhonnchadha, E. (2021). International Comparable Corpus: Challenges in building multilingual spoken and written comparable corpora. Research in Corpus Linguistics 9 (1), 89-103. Clyne, M. (1981): Deutsch als Muttersprache in Australien. Zur Ökologie einer Einwanderersprache. In Zusammenarbeit mit dem Centre for Migrant Studies. Monash University. Deutsche Sprache in Europa und Übersee. Band 8. Wiesbaden: Franz Steiner Verlag. Deppermann, A./Hartung, M. (2011). Was gehört in ein nationales Gesprächskorpus? Kriterien, Probleme und Prioritäten der Stratifikation des “Forschungs- und Lehrkorpus Gesprochenes Deutsch” (FOLK) am Institut für Deutsche Sprache. In: Felder, E., Müller, M., Vogel, F. (Hg..): Korpuspragmatik. Thematische Korpora als Basis diskurslinguistischer Analysen. Berlin/Boston: de Gruyter, 2011. 414-450. Eshkol-Taravella, I., Baude, O., Maurel, D., Hriba, L., Dugua, C., Tellier, I. (2012). Un grand corpus oral ,disponible’ : le corpus d’Orléans 1968-2012. In: Ressources linguistiques libres, TAL. 52,3/2011, 17-46. Fandrych, C., Meißner, C., Wallner, F. (Hrsg.) (2017). Gesprochene Wissenschaftssprache – digital: Verfahren zur Annotation und Analyse mündlicher Korpora. Tübingen: Stauffenburg. Fandrych, C., Schmidt, T., Wallner, F., Wörner, K. (Hrsg.) (2023). Themenschwerpunkt: Zugänge zu mündlichen Korpora für DaF und DaZ: Das ZuMult-Projekt. Darmstadt: Korpora Deutsch als Fremdsprache 3(1), 2023. Frick, E. & Schmidt, T. (2025). Querying spoken language data. In: Bański, P./Heid, U./Herzberg, L. (eds.): Standards for language data and infrastructures. Series: Digital Linguistics. Boston: de Gruyter. Haugh, M. & Chang, W. (2013). Collaborative creation of spoken language corpora. In Greer,T. Kite, Y. & Tatsuki, D. (eds.), Pragmatics and Language Learning. Volume 13 (pp.133-159), National Foreign Language Resource Center, University of Hawai’i, Honolulu. Kaufmann, G., Gorisch, J., Schmidt, T. (2023): Das MEND-Korpus im Archiv für Gesprochenes Deutsch: Entstehung, Möglichkeiten, Grenzen. In: Wolf-Farré, Patrick/Löff Machado, Lucas/Prediger, Angélica/Kürschner, Sebastian (Hrsg.): Deutsche und weitere germanische Sprachminderheiten in Lateinamerika: Methoden, Grundlagen, Fallstudien. (= MinGLA – Minderheiten Germanischer Sprachen in Lateinamerika 1). Berlin: Lang, 2023. S. 103-147. Kleiner, S. (2015): „Deutsch heute“ und der Atlas zur Aussprache des deutschen Gebrauchsstandards. In: Kehrein, R., Lameli, A., Rabanus, S. (Hrsg): Regionale Variation des Deutschen. Projekte und Perspektiven. Berlin u. a., 489-518. Miecznikowski-Fuenfschilling, J., Battaglia, E., Schmidt, T., Zehr, J. (i.V.): The TIGR Corpus of Spoken Italian. Pagenstecher, C. (2024). Oral-History.Digital: Eine Erschließungs- und Rechercheplattform für audiovisuelle narrative Forschungsdaten. In: O-Bib. Das Offene Bibliotheksjournal 11 (1), 2024, 1-8, https://doi.org/10.5282/o-bib/6007. Reineke, S., Deppermann, A., Schmidt, T. (2023). Das Forschungs- und Lehrkorpus für Gesprochenes Deutsch (FOLK). Zum Nutzen eines großen annotierten Korpus gesprochener Sprache für interaktionslinguistische Fragestellungen. In: Deppermann, A., Fandrych, C.,Kupietz, M. & Schmidt, T. (Hrsg.): Korpora in der germanistischen Sprachwissenschaft. Mündlich, schriftlich, multimedial. Jahrbuch des Instituts für Deutsche Sprache 2022.. Berlin/Boston: de Gruyter, 2023. S. 71-102. Schmidt, T. (2016). Good practices in the compilation of FOLK, the Research and Teaching Corpus of Spoken German. In: Kirk, John M./Andersen, Gisle (Hrsg.): Compilation, transcription, markup and annotation of spoken corpora. (= International Journal of Corpus Linguistics 21, Issue 3). Amsterdam/Philadelphia: Benjamins, 2016. 396-418. https://doi.org/10.1075/ijcl.21.3.05sch Schmidt, T., Schwendemann, M., Wallner, F. (2023): ZuViel: Transkriptvisualisierung und Arbeiten mit Transkripten. In: Fandrych, C./Schmidt, T./Wallner, F./Wörner, K. (Hrsg.): Korpora Deutsch als Fremdsprache 3(1). Themenschwerpunkt: Zugänge zu mündlichen Korpora für DaF und DaZ: Das ZuMult-Projekt Darmstadt: KorDaF, 2023. S. 72-91. Schmidt, T. (2025): Représenter et accéder à la parole dans les corpus oraux : diversification et adaptation des méthodes et technologies. In: Kanaan-Caillol, L./Dugua, C./Abouda, L./Gerstenberg, A. (Hrsg.): Représenter la parole. Berlin/Boston: de Gruyter. Trawiński, B. & Kupietz, M. (2021). Von monolingualen Korpora über Parallel- und Vergleichskorpora zum Europäischen Referenzkorpus EuReCo. In: Lobin, H., Witt, A., Wöllstein, A.

Topics & Keywords

Linguistic Education and Pedagogy Linguistic research and analysis Second Language Acquisition and Learning

UN Sustainable Development Goals

Quality Education

Publication Details

Published in: Zenodo (CERN European Organization for Nuclear Research)

DOI: 10.5281/zenodo.18983099

Field-Weighted Citation Impact: 0.00