Open Password - Freitag, den 5. Juli 2019

# 587

Zukunft der Informationswissenschaft – Wissenschaftliche Bibliotheken – Dokumentenbasierung – Wissensbasierung – Digitalisierung – Sören Auer – Anna Kasprzik – Wissenschaftliche Kommunikation – Open Access – Information Overload – Transdisziplinarität – Kollaboratives Arbeiten – Strukturierung – Erschließung – Automatisierung - Urheberrecht – How Can I Share It  - ArXiv – ChemRxiv- Informationsflut – Redundanzen – Maschinelle Unterstützung – DOI – ORCID – Referenzierung – Medienbrüche – Reproduzierbarkeit – DOI – ORCID – FAIR – W3C – Verfügbarkeit – Wissensgraphen – Integration – Infrastrukturdienste – TIB – Leibniz Gemeinschaft – Open Research Knowledge Graph - DSGVO – Google – Facebook – Wall Street Journal – Mark Read – WPP PLC – EU – Mike Masnick – Open Search – SUMA -EV – Open Search Foundation

 

 

Zukunft der Informationswissenschaft – Teil „Wissenschaftliche Bibliotheken“ (Print: Simon-Verlag - Online: Open Password)

Von dokumentenbasierten
zu wissensbasierten Informationsflüssen

Die Rolle wissenschaftlicher Bibliotheken
im Transformationsprozess

Vor einer Revolution
der wissenschaftlichen Kommunikation

Von Sören Auer, Anna Kasprzik und Irina Sens 

Marstall, früher ein Pferdestall des Königs von Hannover, heute das Zentrum der Technischen Informationsbibliothek, in der am Open Research Knowledge Graph und damit an der Revolution der wissenschaftlichen Kommunikation gearbeitet wird.

________________________________________________________________________

Ausgangslage: Hürden für wissenschaftliche Informationsflüsse
________________________________________________________________________

Im Zuge der Vernetzung und Digitalisierung sind mittlerweile nahezu alle Arten von Information online verfügbar und der Informationsaustausch hat sich in zahlreichen Bereichen radikal gewandelt. Informationen, die früher über gedruckte Medien wie Telefon- und Adressbücher, Straßenkarten und -atlanten oder auch Katalogen für den Bestell-Einzelhandel zur Verfügung gestellt wurden, werden heute in der Regel online und komplett anders strukturiert dargeboten. In der Wissenschaft erfolgt die Kommunikation von Forschungsergebnissen jedoch nach wie vor auf der Basis statischer Text-Dokumente: Forscher erarbeiten Aufsätze und Artikel, die in Online- und Offline-Publikationsmedien als grobgranulare und wenig übergreifend strukturierte Dokumente verfügbar gemacht werden. Als Nutzer einer Bibliothek suchen sie dann ihrerseits nach Dokumenten und müssen zunächst in langen Trefferlisten die passenden Dokumente und in diesen wiederum die für sie relevanten Informationen identifizieren. Auch wenn der Anteil an Publikationen wächst, die im Open Access verfügbar sind, sind die Wissenschaftler weiterhin darauf angewiesen, dass die Bibliothek ihnen ein umfassendes Ressourcenangebot zur Verfügung stellt. Auf diese grundsätzliche Vorgehensweise ist die gesamte Bibliotheks-, Technologie-, Dienst- und Forschungslandschaft derzeit ausgerichtet. Während es früher ausreichte, nur wenige Zeitschriften für das eigene Fach im Blick zu haben, sind Information Overload und Transdisziplinarität nun allgegenwärtige Herausforderungen.

Problematisch sind also der Mangel an eindeutig identifizierbaren Fachkonzepten und Relationen und an terminologischer Präzision und Transparenz sowie die Hürden für kollaborative Arbeit und für die Integration verschiedener Forschungsergebnisse miteinander. Dies liegt zum einen an der mangelnden Strukturierung und tiefen inhaltlichen Erschließung und zum anderen an fehlenden Möglichkeiten, diese Informationen und Struktur, wenn vorhanden, automatisiert zu verarbeiten. Auch wenn die Open-Access-Bewegung, ein wissenschaftsfreundliches Urheberrecht mit erweiterten Möglichkeiten für Text und Data Mining, Verlagsinitiativen wie How can I Share it oder Preprint-Server wie arXiv oder ChemRxiv den Zugang zu Aufsätzen und Bildern erleichtern, ist die uneingeschränkte Verfügbarkeit der Informationen von den Möglichkeiten abhängig, die die jeweilige Bibliothek dem Wissenschaftler anbieten kann. Relevant sind in diesem Zusammenhang insbesondere die folgenden Faktoren:

• Anstieg wissenschaftlicher Publikationen. Im letzten Jahrzehnt hat sich der wissenschaftliche Output in Form veröffentlichter Artikel fast verdoppelt.[1] Es ist zu erwarten, dass sich diese Entwicklung mit dem Beitritt weiterer Länder in die internationale Forschungsgemeinschaft fortsetzt (z.B. China, Russland, Indien, Südamerika). Diese Fülle wissenschaftlicher Literatur macht es immer schwieriger, den Überblick über den aktuellen Stand der Forschung zu behalten. Wissenschaftler verbringen einen großen Teil ihrer Zeit damit, Literatur zu durchsuchen, ihre eigene Forschung in Dokumentenform zu präsentieren und häufig aufgrund mangelnder Transparenz isoliert an sehr ähnlichen Themen zu arbeiten.

• Hoher Aufwand beim Erstellen und Lesen von Artikeln. Die Erstellung, Lektüre und Verarbeitung wissenschaftlicher Literatur bindet eine extrem hohe kognitive Kapazität. Wenn wissenschaftliche Publikationen erstellt werden, entsteht oft eine gewisse Redundanz, da z.B. Vorarbeiten oder verwandte Arbeiten zu einem Thema in Artikeln immer wieder in leicht modifizierter Form wiederholt werden.

• Sehr eingeschränkte Maschinenunterstützung bei der Bearbeitung und Suche. Der Informationsgehalt wissenschaftlicher Artikel ist für Maschinen sehr schwer zu verarbeiten. Obwohl Zeichen, Wörter und Sätze indiziert und durchsucht werden können, ist die Struktur und Semantik von Texten, Illustrationen, Verweisen, Symbolen usw. derzeit für Maschinen entweder nicht oder nur sehr eingeschränkt zugänglich. Entsprechend sind moderne Schnittstellen zur Exploration, Retrieval, Fragenbeantwortung und Visualisierung für die Arbeit an wissenschaftlichen Artikeln nicht anwendbar, was die Bewältigung der Fülle täglich erscheinender wissenschaftlicher Literatur weiter behindert.

• Fehlende, weltweit eindeutige Identifizierung von Konzepten in wissenschaftlichen Artikeln. Obwohl bereits weltweit eindeutige Systeme persistenter Identifikatoren für Dokumente und Datensätze (DOI) und Autoren (ORCID) existieren, gibt es keine vergleichbaren universellen Identifikatoren für domänenspezifische Terminologien, Definitionen und Konzepte. Die Referenzierung ist daher eher granular und verweist in der Regel auf ganze Publikationen statt auf spezifische Definitionen, Aussagen, Experimente usw.

• Hohe Reibungsverluste durch Medienbrüche, Mehrdeutigkeit und mangelnde Vergleichbarkeit. Angesichts der fehlenden Strukturierung von Forschungsergebnissen können diese oft nur mit großem Aufwand verglichen werden. Darüber hinaus sind die verschiedenen Artefakte wissenschaftlicher Arbeit (Daten, Publikationen, Software, Simulationen, Modelle usw.) ungenügend miteinander verlinkt und werden nicht in offenen und standardisierten, maschineninterpretierbaren Formaten zur Verfügung gestellt, was es weiter erschwert, sie zu reproduzieren („Reproducibility Crisis“ [2],[3],[4]). Die FAIR-Prinzipien[5] sind ein Schritt in die richtige Richtung, aber sie sind aus technischer Sicht noch zu vage definiert und bauen nicht ausreichend auf bestehenden Best Practices wie z.B. „Data on the Web“ des W3C[6] auf.

• Verfügbarkeit aller relevanten Informationen. Obwohl vor allem im STM-Bereich alle Informationen digital vorliegen[7], gibt es Beschränkungen im Zugang. Entweder liegen die Dokumente hinter einer Paywall oder sie sind nicht auffindbar, weil sie nicht sachgerecht erschlossen wurden, aufgrund der Sprache nicht wahrgenommen oder in relevanten Abstracting-&Indexing-Services nicht aufgenommen wurden. Des Weiteren können Materialien bei einer fehlenden digitalen Langzeitarchivierung nicht mehr lesbar sein.

________________________________________________________________________

Vision: Von dokumenten- zu wissensbasierten Methoden der wissenschaftlichen Kommunikation
________________________________________________________________________

Mit den aktuellen Entwicklungen unter anderem in den Gebieten Wissensrepräsentation, semantische Suche, Mensch-Maschine-Interaktion, natürlicher Sprachverarbeitung und Künstlicher Intelligenz wird es möglich, das vorherrschende Paradigma des dokumentenzentrierten Wissensaustauschs komplett neu zu denken und in wissensbasierte Suche und wissensbasierte Informationsflüsse zu transformieren, indem über Bibliotheken verfügbares Wissen in Wissensgraphen und nicht (nur) in Dokumenten dargeboten wird.

Kern der Etablierung wissensbasierter Informationsflüsse ist die dezentrale, kollaborative Erstellung und Weiterentwicklung von Informationsmodellen, Vokabularen, Ontologien und Wissensgraphen zur Erarbeitung eines gemeinsamen Verständnisses von Daten und Informationen zwischen den verschiedenen Stakeholdern sowie die Integration dieser Technologien in die Infrastruktur und Prozesse der Suche und des Wissensaustausches in die Forschungsbibliothek der Zukunft. Durch die Integration dieser Informationsmodelle in existierende und neue Infrastruktur-Dienste (Repositorien, Sacherschließungssysteme, PID-Vergabestellen usw.) können die derzeit impliziten und tief in Dokumenten verborgenen Informationsstrukturen explizit und direkt nutzbar gemacht werden. Wissenschaftliches Arbeiten wird dadurch revolutioniert, weil Informationen und Forschungsergebnisse miteinander vernetzt und besser mit komplexen Informationsbedürfnissen in Verbindung gebracht werden können. Im Ergebnis wird wissenschaftliches Arbeiten effektiver, Ergebnisse werden direkt vergleichbar und leichter wiederverwendbar.

Derzeit sind Prozesse in Bibliotheken und Gedächtniseinrichtungen aller Art, in Forschungseinrichtungen, Universitäten und Bildungseinrichtungen sowie in Forschungsabteilungen von Unternehmen und generell Unternehmen auf einen dokumentenbasierten Informations- und Wissensaustausch ausgerichtet. Sie müssen sich in den nächsten Jahren wandeln. Hier sind insbesondere Fachbibliotheken mit überregionalem oder nationalem Auftrag (wie z.B. die TIB als Zentralbibliothek und Informationszentrum für Wissenschaft und Technik mit einer eigenen Forschungs- und Entwicklungsabteilung) prädestiniert, diesen Transformationsprozess zu begleiten und aktiv voranzutreiben. Durch die Vernetzung der TIB mit den Instituten der Leibniz Gemeinschaft besteht eine kritische Masse an Anwendungsdomänen und Nutzern, um einen wissensbasierten Informationsaustausch zu implementieren und entsprechende Forschungsinfrastrukturen bereitzustellen.

Um hier als Katalysator zu fungieren, ist es notwendig, Forschungsansätze, Technologien und Dienste ganzheitlich, interdisziplinär und vernetzt zu entwickeln. Infrastrukturen mit starkem Fokus auf Diensten zum Wissensaustausch (Forschungsdatenmanagement, Forschungsinformation) sowie Forschung auf relevanten Forschungsgebieten wie Information Retrieval, Informationsextraktion, Semantische Technologien, Künstliche Intelligenz und Maschinelles Lernen machen es möglich, den Wandel von dokumenten- zu wissensbasierten Informationsflüssen in Deutschland zu realisieren und sowohl nationale als auch internationale Strahlkraft in diesem Gebiet zu entwickeln.

Wissensbasierte Informationsflüsse können durch die kollaborative Kuratierung und Nutzung eines gemeinsamen, öffentlich zugänglichen Wissensgraphen etabliert werden – dem Open Research Knowledge Graph. Dieser sollte den Forschungsdiskurs in Wissenschaft und Technik strukturiert repräsentieren. Zugleich müssen existierende Dienste und Infrastrukturen (z.B. Nationale Forschungsdateninfrastrukturen oder European Open Science Cloud) besser vernetzt werden. Der Open Research Knowledge Graph kann im Ergebnis Nutzercommunities in den verschiedenen Fachdisziplinen mit vielfältigen Diensten unterstützen, agiler, effektiver und effizienter zusammenzuarbeiten.

Lesen Sie in der nächsten Folge: Der Open Research Knowledge Graph

Datenschutzpolitik

„DSGVO förderte Google und Facebook
und schadete allen anderen“

 „We warned folks that these big attempts to "regulate" the internet as a way to "punish" Google and Facebook would only help those companies. Last fall, about six months into the GDPR, we noted that there appeared to be one big winner from the law: Google. And now, the Wall Street Journal notes that it's increasingly looking like Facebook and Google have grown thanks to the GDPR, while the competition has been wiped out.

“GDPR has tended to hand power to the big platforms because they have the ability to collect and process the data,” says Mark Read, CEO of advertising giant WPP PLC. It has “entrenched the interests of the incumbent, and made it harder for smaller ad-tech companies, who ironically tend to be European.”

So, great work, EU. In your hatred for the big US internet companies, you handed them the market, while destroying the local European companies.“

Mike Masnick, Another Report Shows The GDPR Benefited Google And Facebook, And Hurt Everyone Else, in: https://www.techdirt.com/articles/20190620/23360242441/another-report-shows-gdpr-benefited-google-facebook-hurt-everyone-else.shtml

 

Internationales Symposium zu Open Search

Eine unabhängige Infrastruktur
für Suchmaschinen und andere Dienste

Die Internetsuche sollte frei und transparent sein. Durch die kommerziellen Interessen der Global Player sowie die Monopolstruktur des Suchmaschinenmarktes ist diese Ursprungsidee des freien Internets jedoch längst in Gefahr. Daher machen wir uns vom SUMA-EV durch unsere Zusammenarbeit mit der Open Search Foundation für Alternativen stark. Ziel ist eine unabhängige Infrastruktur, auf der nicht nur Suchmaschinen, sondern auch andere Dienste aufsetzen können.

Um diese Bewegung zu etablieren und innovative Kräfte zu bündeln, sollen nun Erkenntnisse, Ideen und Perspektiven zusammengetragen werden. Vom 23. bis 24 Oktober 2019 findet zu diesem Zweck in Garching das 1. Internationale Symposium zum Thema Open Search statt. Es ist in diesem Zusammenhang auch möglich, als Autor beizutragen. Der Einsendeschluss für Beiträge zu unten genannten Themen ist der 30. August 2019. Um Ihren Artikel einzureichen, senden Sie uns bitte das PDF (auf Englisch oder Deutsch) an submissions@opensearchsymposium.org. Alle vollständigen Beiträge (8 Seiten), kurzen Beiträge (5 Seiten) und angenommenen Poster werden nach einer Begutachtung online auf zenodo.org veröffentlicht und erhalten eine DOI.

Unsere Hauptthemen sind: Umfangreiche verteilte Datenbanken • Web Science • Inhaltsanalyse / Mining / Retrieval • Open Source-Technologie, die im Allgemeinen mit der Websuche zusammenhängt • SEO • Geschäftsmodelle • Crawling • Indizierung • Suchoberflächen der nächsten Generation / Barrierefreie Suche • Künstliche Intelligenz bei der Websuche • Internet der nächsten Generation • Leistung und Skalierbarkeit bei der Websuche • Verteilte Betriebssysteme • Cloud- / Clustersicherheit

Wenn sie mehr wissen wollen: www.opensearchsymposium.org - Bei weiteren Fragen können Sie auch gerne eine Email senden: info@opensearchsymposium.org

Viele Grüße - Das SUMA-EV Team

 

 

Open Password

Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum

Neue Ausgaben von Open Password erscheinen viermal in der Woche.

Wer den E-Mai-Service kostenfrei abonnieren möchte - bitte unter www.password-online.de eintragen.

Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/push-dienst-archiv/. Das gilt auch für alle früher erschienenen Ausgaben.

International Co-operation Partner:
Outsell (London)
Business Industry Information Association/BIIA (Hongkong)

---