Forscher des Leipziger Max-Planck-Instituts für evolutionäre Anthropologie und der University of Auckland in Neuseeland haben ein neues Repositorium linguistischer Datensätze aus aller Welt geschaffen. Ziel des Projekts ist es, neue Erkenntnisse über die Entwicklung von Wörtern und Lauten in möglichst vielen der heute weltweit gesprochenen Sprachen zu gewinnen. Aktuell enthält die Lexibank standardisierte lexikalische Daten zu mehr als 2.000 Sprachen und ist somit die umfangreichste öffentlich zugängliche Sammlung, die bisher erstellt wurde.
Stimmt es, dass viele Sprachen der Welt für "Mutter" und "Vater" Wörter verwenden, die "Mama" und "Papa" ähneln? Wenn eine Sprache für "Arm" und "Hand" das gleiche Wort benutzt, verwendet sie dann auch nur ein einziges Wort für "Bein" und "Fuß"? Und wie gelingt es Sprachen, mit relativ wenigen Wörtern so viele Bedeutungen auszudrücken? Ein interdisziplinäres Team von Linguisten, Informatikern und Psychologen hat eine umfangreiche öffentlich verfügbare Datenbank zusammengestellt, mit deren Hilfe diese und viele weitere Fragen computergestützt untersucht werden können.
"Als unsere Abteilung für Sprach- und Kulturevolution 2014 gegründet wurde, stellte ich mein Kollegium vor eine Herausforderung: Auf der Welt gibt es mehr als 7.000 Sprachen. Wie wäre es, Datenbanken zu erstellen, mit deren Hilfe es uns gelingen kann, diese sprachliche Vielfalt so umfassend wie möglich zu dokumentieren?", sagt Max-Planck-Direktor Russell Gray. "Inspiriert hat uns Genbank – eine umfangreiche Datenbank mit genomischen Datensätzen aus aller Welt", so Gray weiter. "Genbank war ein Wendepunkt. Die große Menge an frei verfügbaren Sequenzdaten hat die Art und Weise, wie wir biologische Vielfalt analysieren können, revolutioniert. Wir hoffen, dass Lexibank, die erste von mehreren linguistischen Datenbanken mit Datensätzen aus aller Welt, die wir derzeit zusammentragen, dazu beitragen wird, unser Wissen über die sprachliche Vielfalt auf eine ähnliche Weise zu revolutionieren."
Neue Standards und neue Software
Lexibank enthält Daten in Form von standardisierten Wortlisten für mehr als 2.000 Sprachvarietäten. "Die Arbeit an Lexibank ging mit dem Bestreben nach einheitlicheren Datenformaten in linguistischen Datenbanken einher. Somit dient Lexibank einerseits als groß angelegtes Beispiel für die Vorteile der Standardisierung und andererseits als Katalysator, um die Standardisierung linguistischer Datensätze weiter voranzutreiben", erklärt Robert Forkel, der den computergestützten Teil der Datenerhebung leitete. "Wir haben uns dazu entschlossen, unsere eigenen Standards, die sogenannten 'Cross-Linguistic Data Formats', zu schaffen, die wir inzwischen schon in einer Vielzahl von Projekten, an denen unsere Abteilung beteiligt ist, erfolgreich eingesetzt haben."
Dabei werden die von dem Forschungsteam vorgeschlagenen neuen Standards von neuen Software-Tools begleitet, die die Arbeitsabläufe in der Linguistik erheblich erleichtern. "Wir haben neue computergestützte Arbeitsabläufe entwickelt, die es ermöglichen, bestehende Sprachdatensätze vergleichbar zu machen", sagt Johann-Mattis List, der den praktischen Teil der Datenkuration leitete. "Mit diesen Arbeitsabläufen haben wir die Effizienz der Datenstandardisierung und -kuratierung drastisch erhöht."
Identifizierung von Sprachevolutionsmustern
Neben der Erfassung und Bereitstellung von standardisierten Sprachdaten hat das Team neue computergestützte Methoden entwickelt, um Fragen zur Evolution sprachlicher Vielfalt zu beantworten. Wie diese Methoden in der Praxis eingesetzt werden können, veranschaulicht die aktuelle Publikation, in der Unterschiede und Gemeinsamkeiten von Sprachen in Bezug auf sechzig verschiedene Merkmale berechnet werden.
"Dank unserer standardisierten Darstellung von Sprachdaten ist es jetzt ganz einfach zu überprüfen, in wie vielen Sprachen Wörter wie 'Mama' und 'Papa' für 'Mutter' und 'Vater' stehen", berichtet List. "Es stellt sich heraus, dass dieses Muster tatsächlich in vielen Sprachen der Welt und in sehr unterschiedlichen Regionen zu finden ist", ergänzt Simon J. Greenhill, einer der Gründer des Lexibank-Projekts. "Nicht alle Sprachen, die diesem Muster folgen, sind eng miteinander verwandt. Das könnte auf eine unabhängige, parallele Evolution von Sprache hindeuten, so wie es der große Linguist Roman Jakobson bereits 1968 zur Diskussion stellte."
Datenzuwachs und Entwicklung neuer Methoden
Mithilfe der neuen Datensammlung und der automatischen Berechnung von Sprachmerkmalen können nun viele weitere Fragen zur Vielfalt und Evolution von Sprache im Detail erforscht werden. "Natürlich endet die Analyse nicht mit den Beispielen, die wir in unserer Arbeit vorstellen", sagt List. "Ganz im Gegenteil möchten wir Menschen aus der Linguistik, der Psychologie und den Evolutionswissenschaften dazu ermutigen, anknüpfend an unsere Beispiele, die Datenbank mit neuen Datensätzen zu 'füttern' und neue Methoden zu entwickeln", ergänzt Forkel.
Schon in ihrer aktuellen Publikation präsentieren die Autoren interessante Ergebnisse, die weiter erforscht werden sollten. "Als wir untersuchten, welche Sprachen mit einem einzigen Wort für 'Arm' und 'Hand' auskamen, stellten wir fest, dass diese Sprachen oft auch das gleiche Wort für 'Bein' und 'Fuß' verwenden", berichtet List. "Was wie ein dummer Zufall erscheint, zeigt doch, dass menschliche Sprache in ihrer Gesamtheit oft viel strukturierter ist, als man denken könnte, wenn man eine Sprache isoliert betrachtet." (SJ/JML)