header-newsletter-password
steilvorlagen-2020-Banner_600x160px

Open Password - Dienstag,
den 14. Juli
2020

# 787


Data Scientists – Georgios Tsatsaronis – Elsevier – Künstliche Intelligenz – Chris Schneider – LexisNexis – Big-Data-Analysen – Maschinelles Lernen – Computerlinguistik – Fördermittel – Knowledge Graph – Health Graph - Prädiktive Analysen – Datenanreicherung – Themenmodellierung – Extraktion wissenschaftlicher Konzepte - Elsevier ScienceDirect Topic Pages – Stanford – Google Brain - Geschäftsmodell – Informationsanalyse – Ethik – Qualifikationsanforderungen - Algorithmen - Informationskompetenz – Bernd Jörs – Hermann Huemer – IICIS – Berliner Zentral- und Landesbibliothek – Hugendubel – Fachlektoren – Outsourcing – ver.di – Matthias Neiss – SVP – Volkhard Francke

Data Scientist Georgios Tsatsaronis
im Interview

Wie künstliche Intelligenz
zu besseren Forschungsergebnissen führt

Elsevier als Weltbank der Metadaten und wissenschaftlichen Inhalte

Gesprächspartner: Chris Schneider, Associated Head of Sales, LexisNexis
Georgios Tsatsaronis
Georgios Tsatsaronis

In einem Büro mit Ausblick über die Hafenanlagen von Amsterdam trafen wir Georgios Tsatsaronis, Vice President of Data Science bei Elsevier. Wir sprachen mit ihm über das transformative Potenzial künstlicher Intelligenz, maschinellen Lernens, Computerlinguistik und Datenwissenschaft. Als Leiter der Datenwissenschaft von Elsevier hat Tsatsaronis das Geschäftsmodell des Verlags ausgebaut. KI und Big-Data-Analysen verfügen aus seiner Sicht über beträchtliche Potenziale, Forschern an Universitäten und in der Pharmaindustrie einen messbaren Mehrwert zu verschaffen.

Wie werden bei Elsevier Big-Data-Analysen, KI und maschinelles Lernen eingesetzt? Elsevier ist in der glücklichen Lage, über einen der weltweit bedeutendsten und hochwertigsten Bestände an wissenschaftlichen Inhalten zu verfügen. Big-Data-Analysen und insbesondere maschinelles Lernen sowie hochentwickelte Computerlinguistik werden eingesetzt, um die Inhalte dieser Publikationen zu verstehen und die verschiedensten Elemente daraus zu extrahieren. Am Ende sind wir in der Lage, unseren Nutzern die Ergebnisse über unsere Plattformen anzubieten, damit sie ihre Arbeit effizienter erledigen können.

Wie wichtig sind diese Methoden für Ihre tägliche Arbeit? Sie sind außerordentlich wichtig. Durch diese Methoden sind wir aktuell in der Lage, unseren Nutzern all jene Mittel an die Hand zu geben, die sie zur Erzielung besserer Ergebnisse, zum Verständnis ihres Forschungsbereichs, aber auch für einen tieferen Einblick in ihre Praktiken und ihre Branche benötigen. Dadurch gewinnen sie einen umfassenderen Überblick über die Entwicklung des Expertenwissens. Durch KI, maschinelles Lernen und Computerlinguistik können wir unseren Nutzern den wahrscheinlich besten Service bieten, damit sie ihre Karriere und auch die wissenschaftliche Entwicklung insgesamt vorantreiben.

Beispiele dafür, wie Sie KI und Big Data nutzen? Ein wichtiger Anwendungsbereich sind Förderungen. Zahllose Wissenschaftler forschen heute in vielen Disziplinen und die wichtigste Grundlage für eine erfolgreiche Forschungstätigkeit sind ausreichende Finanzmittel. In der Forschungslandschaft gibt es jede Menge Förderquellen. Den Forschern fällt es jedoch schwer, zur richtigen Zeit die für ihr Forschungsgebiet am besten geeigneten Quellen zu finden. Einer der bedeutendsten Anwendungsfälle besteht deshalb in der Sammlung, Aggregation und Verknüpfung von Daten zu Förderquellen, die wir aus Publikationen und von den Fördergebern selbst beziehen. Die Daten speisen wir in einen Knowledge Graph ein und bieten unseren Nutzern diese Informationen in einer gut aufbereiteten Form an. So können sie schnell die besten Fördermöglichkeiten ermitteln.

Im Gesundheitsbereich stellt unser Health Graph einen wichtigen Anwendungsfall dar. Dafür werten wir strukturierte und nicht strukturierte Inhalte mit Text- und Data-Mining-Methoden aus und kombinieren die Ergebnisse so, dass wir damit Antworten auf die wichtigsten Fragen unserer Wissenschaftler geben können. Zum Beispiel: „Welche sind die wichtigsten Medikamente zur Erreichung eines bestimmten Behandlungsziels?“ oder „Welche sind die wichtigsten Symptome einer bestimmten Erkrankung?“ Wir gehen aber noch einen Schritt weiter und bieten prädiktive Analysen an. Daraus ergeben sich Vorschläge wie: „Hier ist eine neue Hypothese, mit der Sie in Ihrem Biologie-Fachbereich in den nächsten Jahren arbeiten können. Vielleicht lässt sich mit diesem Medikament auch jene Erkrankung behandeln, zu der Sie forschen.“

Wie haben diese Entwicklungen traditionelle Arbeitsmethoden verändert? Früher gingen die Forscher einfach zu den großen Anbietern einschlägiger Inhalte, um die neuesten Publikationen zu einem Medikament oder Protein zu durchforsten. Dies war eine sehr mühsame Arbeit, bei der man viel lesen und eine große Menge an Publikationen systematisch durchgehen musste. Heute werden täglich Tausende solcher Publikationen veröffentlicht, die von einem Forscher nicht alle manuell bearbeitet werden können. Die Plattformen von Elsevier ermöglichen Forschern einen schnellen Zugriff auf die wichtigsten Informationen in diesen Publikationen. So können sie rasch herausfinden, welche für ihre Forschung und ihren Fortschritt die relevantesten sind.

Wie setzen Sie Datenanreicherung ein? Wir bieten zusätzlich zu unseren Basis-Inhalten verschiedene Anreicherungsmöglichkeiten an. Wichtige Anreicherungen beziehen sich auf die Ermittlung von Förderquellen. Wir beschäftigen uns auch intensiv mit Themenmodellierung und der Extraktion wissenschaftlicher Konzepte aus unseren Artikeln. So haben wir eine Initiative gestartet, die wir „Elsevier ScienceDirect Topic Pages“ nennen. Man kann sich das als eine Art Wikipedia für wissenschaftliche Konzepte vorstellen. Nur ist darin das Wissen von Fachleuten und nicht von beliebigen Personen gespeichert. All das Wissen, das wir auswerten, stammt aus Büchern, die wir bei Elsevier veröffentlichen, und es handelt sich daher um hochwertiges Material für unsere Forscher.

Wie haben diese Entwicklungen das Geschäftsmodell von Elsevier verändert? In den vergangenen Jahren hat sich unser Tätigkeitsbereich ausgeweitert. Wir haben unser Geschäftsmodell über unser Verlagsgeschäft hinaus ausgebaut und es umfasst nun auch zahlreiche Lösungen zur Informationsanalyse. Dazu zählen Plattformen, die unsere Inhalte bearbeiten und auswerten. Die Informationen werden den Nutzern dann über unsere Schnittstellen in sehr komprimierter und hochwertiger Form zur Verfügung gestellt. Zusätzlich extrahieren wir Informationen mittels hochentwickelter Computerlinguistik und maschinellen Lernens. So haben wir zusätzlich zu unserem traditionellen Verlagsgeschäft einen Mehrwert geschaffen.

Wie gehen Sie mit Ethikfragen im Rahmen der Nutzung von Daten und Technologie um? Ethik im Zusammenhang mit KI ist ein sehr wichtiges Thema und umfasst zahlreiche Aspekte. Für die Datenwissenschaftler bei Elsevier geht es oft darum, wie sie die Modelle für die Zusammenarbeit mit den Fachleuten nutzen, aber auch darum, wie sie Verzerrungseffekte ermitteln, die beim Training solcher Modelle auftreten können. Wir arbeiten intensiv daran und kooperieren etwa mit Stanford und Google Brain, um den bestmöglichen Umgang mit Problemen, die sich aktuell aus der Nutzung von KI ergeben, zu finden. Dabei stellen wir Fragen wie: „Kennen wir alle rechtlichen Rahmenbedingungen oder Richtlinien, die den Umgang mit den Risiken im Zusammenhang mit solchen Publikationen regeln?“

Die zentralen Aufgaben eines Datenwissenschaftlers. In den letzten zehn bis 15 Jahren hat die Zahl der Datenwissenschaftler kontinuierlich zugenommen. Heute benötigen Datenwissenschaftler eine Vielfalt von Fähigkeiten, die von der Softwareentwicklung bis zu sehr guten Kenntnissen im Bereich hochentwickelter Analysemethoden und des maschinellen Lernens reichen. Datenwissenschaftler müssen heute die End-to-End-Verarbeitung von Daten beherrschen, die geschäftlichen Anforderungen verstehen und dafür Lösungen entwickeln. Sie müssen in der Lage sein, die besten auf KI oder maschinellem Lernen basierenden Lösungen zu finden. Im Grunde genommen lautet die wichtigste Fragestellung in der Informatik: „Wie stelle ich meine geschäftlichen Anforderungen in Form eines bekannten Algorithmus oder Lösungsansatzes dar?“ Finde ich darauf eine gute Antwort, rückt die Lösung des Problems ein gutes Stück näher. Datenwissenschaftler sollten über diese Fähigkeiten verfügen, um mit der Komplexität und der großen Datenmenge sowie mit immer komplexer werdenden Anwendungsfällen umzugehen.

Welche Rolle spielen die Vielfalt der Datenquellen sowie Daten von Dritten? Beides ist äußerst wichtig. Elsevier ist weltweit der größte Verlag für wissenschaftliche Publikationen. Für Forscher sind jedoch auch andere Inhalte wie Patente, klinische Studien, Rohdaten, Whitepapers, technische Berichte und sogar Vorabdrucke von Publikationen wichtig. Eine Zusammenstellung und Kombination dieses Wissens ermöglicht Forschern einen wesentlich besseren Einblick in den Forschungsstand verschiedener Bereiche und informiert sie über die besten Methoden sowie leistungsfähigsten Algorithmen und die wichtigsten Protokolle, die aktuell verwendet werden. Man muss seinen Kunden also einen umfassenden Überblick bieten. Zahlreiche andere Verlage vertrauen Elsevier ihre wissenschaftlichen Inhalte an, damit wir sie verarbeiten und sie zusammen mit den Metadaten ihrer Publikationen in ihre Plattformen integrieren. In diesem Sinne könnte man Elsevier als die Weltbank der Metadaten und der wissenschaftlichen Inhalte bezeichnen.

Briefe

Eine weitere Debatte über Informationskompetenz ist vonnöten

Zu: Bernd Jörs, Zukunft der Informationswissenschaft: Über den Grundbegriff der „Information“ ist weiter zu reden und über die Existenzberechtigung der Disziplin auch - Informationskompetenz in den Bibliotheken und in der Informations-wissenschaft - Das Verlangen nach einer verständlichen Wissenschaftssprache, in: Open Password, 9. Juli

Lieber Herr Bredemeier,

danke, dass Sie die Serie von Prof. Jörs publiziert haben! Nach dem ersten Überfliegen war ich geneigt, ihm voll zuzustimmen. Doch will er nicht viel eher Widerspruch provozieren?
Die Werbetexte für den neuen Studiengang Information Science würde ich nicht allzu wörtlich nehmen (auch nicht als potentieller Student). Damit soll schließlich Aufmerksamkeit und Interesse erzeugt werden.

Was ich von einem künftigen "Information Scientisten" oder auch von bereits existierenden Informationswissenschaftlern zumindest erwarte, ist, dass sie mühelos 460 Synonyme für Information in ihren jeweiligen Kontexten verorten können. Wenn sich daraus 460 Sichtweisen auf Informationskompetenz ergeben, ist das auch kein Drama. Wenn Medienfachleute lieber von Medienkompetenz sprechen, wo sie IK (Informationskompetenz) meinen, so dient dies immerhin unserer gemeinsamen Sache. Problematisch wird es eher dort, wo Bildungsfachleute und -politiker von IK sprechen, obwohl sie nur einen Tablet-PC für alle fordern wollen.

Die tatsächliche Verengung tritt meines Erachtens dort auf, wo IK zum Lernziel einer Vorlesung oder von Benutzerschulungen wird. Ein Curriculum für IK muss immerhin genau definiert und idealerweise standardisiert sein (vgl. ACRL), damit sowohl der Erwerb als auch die Vermittlung evaluiert und quantifiziert werden kann.

Damit kann IK in eine Schublade mit Lesekompetenz oder Computerkompetenz gepackt werden. Entweder man kann den Computer bedienen oder die Bibliothek benutzen oder eben nicht. Aber nur, weil ich mir ein Rezept für Apfelstrudel beschaffen und dieses dann umsetzen kann, heißt das noch nicht, dass ich auch einen Fakten-Check über die Herkunft oder Gefährlichkeit des Corona-Virus durchführen und einen qualifizierten Kommentar darüber auf Facebook absetzen kann. IK klingt so einfach, und jeder sollte ein wenig davon haben.

Ich bin für klare Definitionen, wo sie mehr Verständnis schaffen. Wenn sie nur dem Marketing für das eigene Produkt dienen sollen, überlasse ich die Diskussion gerne den PR-Experten. In diesem Sinne würde ich mir wünschen, dass sich noch ein paar Info-Professionals/Wissenschaftler zu der Polemik von Herrn Jörs auch in Ihrem Newsletter äußern mögen.

Mit besten Grüßen Hermann Huemer, Founder and CEO, IICIIS - Institute for Information Competence & Information Infrastructure, IKIS - Gesellschaft für Informationskompetenz &
Informationsinfrastruktur, office@iiciis.org, https://iiciis.org




ver.di

Entmachtung der Fachlektoren
durch Hugendubel rückgängig machen

Die Vereinte Dienstleistungsgewerkschaft (ver.di) kritisiert das Outsourcing der Buch- Medienauswahl sowie die Beschaffung von Medien durch einen Buchhandelskonzern (gemeint ist Hugendubel, Red.) bei der Berliner Zentral- und Landesbibliothek (ZLB). Zum Jahresende 2020 läuft der Vertrag mit dem Großhändler aus und die Gewerkschaft setzt sich dafür ein, die ausgelagerten Tätigkeiten wieder durch die ZLB selbst durchzuführen. Der Medieneinkauf soll durch den ortsansässigen Buchhandel erledigt werden.

Die ZLB ist die größte öffentliche Bibliothek Deutschlands und ergänzt die Angebote der 80 Bezirksbibliotheken Berlins. Trotz vielfacher Proteste bezog die ZLB erstmals 2016 eine Medien-Paketlösung eines externen, privaten Dienstleisters. Bis zu diesem Zeitpunkt waren fast ausschließlich die Fachlektoren der ZLB für den Bestandsaufbau zuständig.

Kurz vor Ende seiner Amtszeit 2017 stimmte der vormalige Stiftungsrat der ZLB dafür, dass der Großteil der Medienauswahl und -beschaffung der ZLB ab dem 1. Januar 2018 über eine Geschäfts- und Großkundentochter eines Buchhandelskonzerns abgewickelt wird. Das Vertragsverhältnis wurde bis zum 31. Dezember 2020 geschlossen, mit der Option zweimaliger Verlängerung für jeweils ein Jahr.

ver.di kritisiert das Outsourcing von Kernaufgaben der Bibliotheksarbeit von Beginn an als Verlagerung der Kompetenz der Lektoren mit Steuergeldern an ein externes Unternehmen, das ohne kultur- und bildungspolitischen Auftrag handelt. Die Aufgabe der Lektoren der ZLB bei der Buch- und Medienauswahl darf nicht im Wesentlichen darauf beschränkt sein, schriftliche Fächerprofile zu erstellen, auf deren Grundlage dann Beschäftigte von externen, privaten Unternehmen zu tariflich schlechteren Bedingungen die eigentliche Medienauswahl treffen.

ver.di Landesbezirk Berlin-Brandenburg, Matthias Neiss, Ruf: 0175/268 6182



SVP: Dr. Volkhard Francke ist seit 31 Jahren bei SVP (Heidelberg) beschäftigt.

Open Password

Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum

Neue Ausgaben von Open Password erscheinen viermal in der Woche.
Wer den E-Mai-Service kostenfrei abonnieren möchte - bitte unter www.password-online.de eintragen.
Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.

International Co-operation Partner:

Outsell (London)
Business Industry Information Association/BIIA (Hongkong)
header-newsletter-password
Open Password - Redaktion - PASSWORD - Redaktionsbüro Dr. Willi Bredemeier
Erzbergerstr. 9-11
45527 Hattingen
Tel.: (02324) 67009
E-Mail: w.bredemeier@password-online.de