Deutschsprachige Gesprächsrunde zu Metadaten der nächsten Generation: Formate, Kontexte und Lücken

Vielen Dank an Petra Löffel, OCLC, für die Übersetzung dieses im Original englischsprachigen Blogposts.

Im Rahmen der Diskussionsserie zu Metadaten der nächsten Generation berichtet dieser Blogpost von der deutschen Gesprächsrunde zu diesem Thema, die am 10. März 2021 stattgefunden hat.

Teilnehmer*innen aus Deutschland, der Schweiz und Ungarn repräsentierten Nationalbibliotheken, Staatsbibliotheken, Universitäts- und Spezialbibliotheken. Sie brachten Erfahrungen aus den Bereichen Metadaten und Sammlungsentwicklung, Open Access und automatisierte Schlagwortindizierung, Metadaten-Konzepte und Entitäten-Management ein – zusammengenommen eine gute Rezeptur für eine lebhafte und variantenreiche Diskussion.

Bestandsaufnahme

Übersicht der Projekte (Deutschsprachige Gesprächsrunde)

Wie in den anderen Gesprächsrunden war eine Bestandsaufnahme existierender Projekte in den Regionen der erste Schritt. Die resultierende Übersicht von Projekten zeigte verstärkte Aktivität im Bereich bibliographischer Daten; ergänzend waren Aktivitäten in den Sektionen Forschungsdaten und Wissenschaftliche Kommunikation sowie Kulturerbe-Daten erkennbar.

Formate und Kontexte

Die Notiz “MARC21 –> BIBFRAME” auf der Übersicht entfachte eine sofortige Diskussion über die Eignung von Daten”formaten” in verschiedenen Kontexten. Die Gruppe war sich einig, dass BIBFRAME geeigneter und flexibler ist als MARC, aber auch seine Schwächen hat. Um Daten auszutauschen müssen Vereinbarungen darüber bestehen (und befolgt werden!) wie der Standard genutzt wird. Und eine Brücke zwischen verschiedenen Datentypen zu schlagen ist keine der Stärken von BIBFRAME.

Ein Teilnehmer formulierte sinngemäß:

Die Trennung von Titel- und Normdaten ist nicht mehr angemessen, da in der Zukunft werden alle Datentypen Teil eines einzigen großen Graphen sein werden.

Die Teilnehmer*innen sahen die Notwendigkeit für Übergänge zwischen verschiedenen Datenquellen. Neue Plattformen müssen modular und skalierbar genug sein, um die Besonderheiten der verschiedenen beteiligten Institutionen im Detail berücksichtigen zu können. Der Schritt von Normdaten zu Identitätsmanagement erlaubt Bibliotheken das Verlinken verschiedener Datentypen, z.B. von Forschungsdaten mit klassischen Bibliotheksdaten. Andere Bibliotheken erzeugen Querverweise zu anderen Systemen wie z.B. dem coli-conc Projekt, oder reichern ihren Katalog mit Links zu ergänzenden Information aus externen Quellen an. Nutzer*innen wollen Informationen finden, egal wo diese ist und woher sie kommen. Aussagekräftige Verlinkungen können erzeugt werden ohne neue Regeln einzuführen und ohne eine komplexe neue Infrastruktur aufzubauen.

Die im Aufbau begriffene Ungarische Nationale Bibliotheksplattform (ebenfalls auf der Übersicht) konzentriert sich auf ein Graph-Modell und speichert Tripel ab, nicht MARC Daten. Auf diese Weise sind die Daten nicht an ein bestimmtes Format gebunden und die Plattform kann viele verschiedene Bedürfnisse bedienen. Zugleich können Austauschformate nach Bedarf erzeugt werden.

Ein weiteres relevantes Projekt, das im Quadranten Forschungsinformationsmanagement der Übersicht aufgeführt ist, ist Metagrid – ein Projekt, das Daten aus den digitalen Geisteswissenschaften („Digital Humanities“) mit anderen Daten verknüpft, darunter auch Normdateien wie die GND. Allerdings enthalten Normdateien derzeit nicht die umfassenden und detaillierten Informationen, die Historiker benötigen würden. Dies unterstreicht wiederum die Notwendigkeit, Übergänge zwischen Datenquellen zu schaffen, um von der bereits geleisteten Arbeit anderer zu profitieren. Wir können nicht alle alles machen, mahnte eine Teilnehmerin.

Bibliotheksspezifische Formate haben in bestimmten Kontexten immer noch ihre Rolle: Nationalbibliotheken, die Nationalbibliografien veröffentlichen, müssen dies nach einem verlässlichen Regelwerk tun – auch wenn genau diese Regeln in anderen Kontexten obsolet werden könnten.

Gleichzeitig finden sich Bibliotheksdaten neben Daten ganz anderer Art. Ein Beispiel ist die steuerfinanzierte Schweizer E-Government-Initiative, das E-government Schweiz Portal: Alle Daten, die nicht vertraulich sind, müssen für alle Bürger zugänglich gemacht werden. Bibliotheksdaten werden dann beispielsweise neben Wetterdaten etc. veröffentlicht. Die Daten werden im RDF-Format publiziert und damit können die Tripel für jede andere Anwendung nachgenutzt werden, auch wenn noch nicht vorhersehbar ist, was die Nutzer eines Tages mit diesen Daten – vielleicht auch in Kombination mit ganz anderen Daten- machen werden. Was auch sehr spannend ist!

Wie können wir die einzigartigen Daten und die Stärken der Bibliotheken in die Linked-Data-Welt integrieren?

Automatisierte Schlagwortvergabe braucht Sprachkennzeichnung

Ein weiteres Thema, das sich sehr stark herauskristallisierte, ist die automatisierte Schlagwortvergabe und die daraus resultierenden Anforderungen an die zugrundeliegenden Daten.

Metadaten haben häufig große Qualitätsdefizite im Hinblick auf die Maschinenlesbarkeit. So werden z. B. Autoreninformationen, Abstracts etc. in den Metadatensätzen benötigt um eine automatische Schlagwortvergabe zu ermöglichen. Dies erfordert ein Umdenken im Umgang mit den Daten: Welche Art von Daten benötigt wird, wie sie gespeichert und wie sie typisiert werden.

Mehrsprachigkeit ist in diesem Zusammenhang eine weitere große Herausforderung. Aktuelle Normdaten sind so modelliert, dass sie eine bevorzugte Sprache haben. Zukünftige Normdaten müssen flexibler modelliert werden, wie beispielsweise in Wikidata, wo ein Begriff Bezeichnungen in mehr als einer Sprache hat (wie im während der Sitzung erwähnten Beispiel FIFA).

Für die automatische Schlagwortvergabe müssen alle Metadatenelemente sprachcodiert sein, so dass eine für die maschinelle Verarbeitung – und nicht nur für das menschliche Auge – offensichtlich ist, welche Sprache für ein bestimmtes Element oder eine bestimmte Zeichenfolge verwendet wird. Bibliothekar*innen denken manchmal, dass die Angabe der Sprache des Dokuments ausreichen sollte, aber das ist nicht der Fall. Dies zu lösen ist sowohl eine Frage der Koordination als auch eine Frage der Personalausstattung.

Automatisierte Skripts zur Spracherkennung sind ein Teil der Lösung, die allerdings eine gewisse Unschärfe birgt, merkten die Teilnehmer*innen an. Ein Teilnehmer schlug vor:

Wenn wir es schaffen, dass die automatische Verschlagwortung gut funktioniert, könnte das Bibliothekspersonal entlastet werden und sich auf die Sprachkodierung konzentrieren.

Mehr Vernetzung bei diesen Aktivitäten könnte ebenfalls von Vorteil sein. Derzeit sind Initiativen oft lokal begrenzt und die Zusammenarbeit mit anderen Bibliotheken kann langsam und langwierig sein, so die Teilnehmer*innen. Auf internationaler Ebene zusammenzuarbeiten hat große Vorteile, vor allem wenn man mit denen kooperiert, die schon viel weiter sind. Die finnische Nationalbibliothek zum Beispiel entwickelt Lösungen in diesem Bereich und stellt sie für den lokalen Einsatz zur Verfügung.

Auch Linked-Data-Bestrebungen sollten sich nicht lokal oder regional beschränken sondern wenn möglich auf nationaler Ebene mit einer starken Anbindung an eine internationale Infrastruktur stattfinden. Die Tatsache, dass zumindest in Deutschland viele Initiativen traditionell an Bibliotheksverbünde gekoppelt und somit regional ausgerichtet sind, könne manchmal ein Hindernis für die Ausdehnung der Reichweite sein, fand eine Teilnehmerin.

**Bibliothekar*innen müssen ihr Rollenverständnis überdenken**

Bei der Diskussion über Metadaten der nächsten Generation geht es oft um Prioritäten. Können wir mehr von den Daten wiederverwenden, die im Vorfeld von Verlagen, Produzenten und Universitäten generiert wurden, ohne viel Zeit für die erneute Erstellung in unseren Bibliotheken aufzuwenden, um Personal für andere Aufgaben freizuschaufeln? Im Gespräch mit Katalogisierenden ist dies oft ein heikles Thema, merkten die Teilnehmer*innen an.

Und es geht nicht nur um die Katalogisierenden … Als Berufsstand müssen wir die Positionen der Bibliotheken herausfordern, hinterfragen und eine breitere Perspektive einnehmen, schlug ein Teilnehmer vor. Die Verwaltung ist oft langsam und träge. Die Bibliothekswelt hat sich in den letzten zehn Jahren im Gegensatz zu anderen Bereichen nicht so sehr verändert.

Schließlich waren sich die Teilnehmer*innen einig, dass wir uns im Zusammenhang der Überführung von Metadaten in die nächste Generation von dem Konzept “Projekt” verabschieden und stattdessen anerkennen sollten, dass es sich um eine fortlaufende Aufgabe handelt, die eine angemessene Personalausstattung, unbefristete Stellen und ausreichende finanzielle Mittel benötigt! Wir sollten nicht mehr länger auf Projektbasis arbeiten.

Über die OCLC Research Gesprächsreihe zu Metadaten der nächsten Generation  

Im März 2021 führte OCLC Research eine Diskussionsreihe durch, die sich auf zwei Berichte stützte:

Die Diskussionsrunden wurden in verschiedenen europäischen Sprachen abgehalten und die Teilnehmer*innen konnten ihre eigenen Erfahrungen austauschen, ein besseres Verständnis für das Themengebiet erlangen und Sicherheit für die weitere Planung gewinnen.

Die Eröffnungssitzung eröffnete das Forum für Diskussionen und Austausch und führte in das Thema und seine Aufgabenstellungen ein. Zusammenfassungen aller acht Gesprächsrunden werden auf dem OCLC Research Blog Hanging Together veröffentlicht.

Die abschließende gemeinsame Sitzung am 13. April wird die Diskussionen der verschiedenen Gruppen zusammenfassen. Die Anmeldung für dieses Webinar ist noch offen: Bitte nehmen Sie teil!

Annette Dortmund

Dr. Annette Dortmund is a Senior Product Manager and Research Consultant at OCLC. Her work focuses on library roles and needs in the realm of non-traditional metadata, as related to research support, scholarly communications or knowledge work. She is also interested in system and social interoperability. Based in Germany, her interest is predominantly in European developments and trends.

Facebook

Twitter