header-newsletter-password

Open Password - Freitag, den 4. Dezember 2020

#860
D21-Digital-Index 2020 / 2021 – Home Office – Bundesministerium für Wirtschaft und Energie – Kantar – Corona-Pandemie – Homeoffice-Erfahrene – Erstnutzer – Thomas Jarzombek – Home-Office-Perspektiven – Führungskräfte – Hannes Schwaderer – Technische Ausstattung – Fernzugänge – Videokonferenzen - Kollaborationstools -

Künstliche Intelligenz – Wissenschaftliche Bibliotheken – Kuratierung – Qurator – Clemens Neudecker – Staatsbibliothek zu Berlin-Preußischer Kulturbesitz – Named Enity Recognition – OCR – BERT – Google – Transformer Architecture – Neuronale Netze – Attention – Unsupervised Learning – Supervised Learning – Python – DC-SBB – CoBLL – GermEval – Europeana Newspapers – DFG – SoNAR – Kalliope-Verbundkatalog – Zeitschriftendatenbank – Named Entity Linking – Gemeinsame Normdatei – Wikidata – DBPedia – Embeddings – Michael Ridley – Library AI Blog – SBB Blog



D21-Digital-Index 2020 / 2021:
Home Office in Corona-Zeiten

Zahl der Mitarbeiter im Home Office
verdoppelte sich

Arbeitnehmer wünschen sich mehr Home Office,
die Führungskräfte aber nicht so sehr

2020 haben doppelt so viele Berufstätige wie im Vorjahr mobil oder von zu Hause aus gearbeitet: 32 Prozent der Befragten nutzten Telearbeit, Homeoffice oder mobiles Arbeiten (im Folgenden: „Homeoffice“). Bei den Berufstätigen mit Büroarbeitsplatz liegt der Anteil sogar bei rund 60 Prozent – auch dies ist eine Verdoppelung im Vergleich zum Vorjahr. Die zeigt die Studie D21-Digital-Index 2020/2021 der Initiative D21, gefördert vom Bundesministerium für Wirtschaft und Energie und durchgeführt von Kantar.

Sowohl bei Homeoffice-Erfahrenen als auch bei bisherigen Nicht-Nutzern hat die Corona-Pandemie den Arbeitsalltag stark verändert: 34 Prozent der im Homeoffice Arbeitenden sind Erstnutzer, die im Zuge der Pandemie erstmals von dieser Möglichkeit Gebrauch machten. Von den erfahrenen Nutzern haben 38 Prozent in Folge der Pandemie mehr Homeoffice gemacht als vorher. Ob Neuling oder Routinier - die Mehrheit der Nutzer (59 Prozent) fand die Arbeit im Homeoffice teilweise effizienter, weil es weniger Ablenkung gab. Die große Mehrheit fühlt sich vom Arbeitgeber beim Umstieg ausreichend unterstützt (64 Prozent). Einen großen Vorteil des Homeoffice sehen 63 Prozent der Befragten in einer besseren Vereinbarkeit von Berufs- und Privatleben.

„Das mobile Arbeiten hilft Unternehmen aktuell dabei, arbeitsfähig zu bleiben und die Gesundheit der Beschäftigten zu schützen. Die Krise wird so auch zur Chance: Firmen und Behörden bauen im Eiltempo die notwendige Infrastruktur auf und können so zukünftig flexibler agieren. Das macht die deutsche Wirtschaft widerstandsfähiger.“ So Thomas Jarzombek, Beauftragter des Bundeswirtschaftsministeriums für Digitale Wirtschaft und Start-ups. __________________________________________________________________________________

Mehr als jeder dritte Berufstätige mit Büroarbeitsplatz will künftig überwiegend im Homeoffice arbeiten
__________________________________________________________________________________


Mit Blick auf die Zukunft nach der Corona-Pandemie möchten 36 Prozent der Befragten mit Büroarbeitsplatz künftig mindestens die Hälfte der Arbeitszeit von zu Hause aus arbeiten. Von den Befragten mit Homeoffice-Erfahrung kann sich sogar mehr als die Hälfte vorstellen, den Anteil auszubauen. 51 Prozent wünschen sich mindestens die Hälfte ihrer Arbeitszeit als Homeoffice. Unter den befragten Führungskräften aus allen Branchen und Tätigkeiten gab dagegen nur jede vierte Person (25 Prozent) den Wunsch an, dass ihre Mitarbeiter nach der Corona-Krise mehr im Homeoffice arbeiten sollten als vorher. Dazu Initiative-D21-Präsident Hannes Schwaderer: „Die Erfahrungen der Berufstätigen im Corona-Jahr 2020 zeigen, dass die Barrieren für Homeoffice in der Vergangenheit weniger in der Hardware lagen als in den Köpfen vieler Führungskräfte.“ __________________________________________________________________________________

Software-Lösungen bringen Durchbruch fürs digitale Arbeiten
__________________________________________________________________________________


74 Prozent der Befragten, die während der Corona-Pandemie zu Hause arbeiteten, bewerteten die technische Ausstattung durch ihr Unternehmen als ausreichend. Während sich die Ausstattung mit Laptop (49 Prozent) und Smartphone (23 Prozent) während der Pandemie kaum veränderte (+3 bzw. +1 Prozentpunkte), nahm die Bedeutung von Möglichkeiten zur sicheren mobilen (Zusammen-)Arbeit stark zu. Der Anteil der Berufstätigen mit Büroarbeitsplatz, denen das Unternehmen einen Fernzugang/VPN, einen Videokonferenzdienst oder Kollaborationstools zur Verfügung gestellt hat, hat sich jeweils verdoppelt. Die Ausstattungsquote stieg sowohl beim Fernzugang/VPN als auch bei Videokonferenzdiensten auf 33 Prozent (+ 17 Prozentpunkte) sowie bei Kollaborationstools für gemeinsames Arbeiten in Dokumenten auf 26 Prozent (+15 Prozentpunkte).
Künstliche Intelligenz
in wissenschaftlichen Bibliotheken

Zur Kuratierung digitalisierter Dokumente mit Künstlicher Intelligenz: Das Qurator-Projekt

Named Entity Recognition – Named Entity Linking – Zusammenfassung und Ausblick


Von Clemens Neudecker, Staatsbibliothek zu Berlin - Preußischer Kulturbesitz


Vierter Teil
Clemens Neudecker
__________________________________________________________________________________

Named Entity Recognition.

_________________________________________________________________________________

Die Erkennung von Eigennamen (Named Entity Recognition, NER) stellt einen wichtigen Verarbeitungsschritt auf dem Weg von unstrukturierten Volltexten (OCR) zu strukturierten Informationsressourcen dar. Allerdings sind die vorliegenden Verfahren für die NER zumeist nicht für historische Sprachen geeignet. Auch stehen nur wenige freie Daten zum Trainieren entsprechender Klassifikatoren zur Verfügung. Auch vor dem Hintergrund des hohen Anteils an Rauschen in den Ausgangsdaten auf Grund von OCR-Fehlern sind aktuell verbreitete Verfahren für diesen besonderen Anwendungsfall nicht ausreichend robust.

Für die NER bauen die Arbeiten der SBB-PK auf dem Sprachmodell BERT auf. BERT wurde Ende 2018 von Google veröffentlicht[1] und basiert auf der “Transformer Architecture” für neuronale Netze, die gleichfalls von Google eingeführt wurde (2017)[2]. Dabei finden die neuesten Verfahren aus der KI-Forschung wie “Attention” Verwendung. BERT stellt ein Beispiel für ein maskiertes Sprachmodell dar. Das heißt, BERT wurde auf der Grundlage von Sequenzen trainiert, in denen 15 Prozent der Wörter “maskiert” sind, also mit einem Platzhalter [MASK] versehen wurden. Basierend auf dem Kontext der durch die anderen nicht maskierten Wörter vorgegeben ist, versucht das BERT-Modell die korrekte Ersetzung für das maskierte Wort vorherzusagen. Darüber hinaus wurde BERT mit Satzpaaren trainiert, von denen 50 Prozent jeweils direkt aufeinander folgen. Das BERT-Modell lernt daraus, Vorhersagen darüber zu treffen, welche Sätze inhaltlich aneinander anschließen.

Um BERT speziell für die NER anzuwenden, wurde von der SBB-PK ein Ansatz basierend auf unüberwachtem (“unsupervised”) Lernen auf der Basis großer Mengen historischer Texte in Kombination mit überwachtem (“supervised”) Lernen auf einer vergleichsweise geringen Anzahl manuell mit “Named Entities” annotierter Daten gewählt [11]. Dazu wurden in einem ersten Schritt sämtliche 29.000 Volltexte in den Digitalisierten Sammlungen der SBB-PK mit Hilfe eines Python-Programms [14][3] nach Sprache sortiert und nur diejenigen Seiten ausgewählt, auf denen die Spracherkennung “Deutsch” mit einer Wahrscheinlichkeit größer als 0.999999 identifiziert hat. Um zusätzlich solche Seiten herauszufiltern, bei denen die Qualität des mit OCR erzeugten Volltextes besonders schlecht ist (beispielsweise Handschriften, Dokumente mit Tabellen, Anzeigen), wurden sämtliche Seiten mit einer Zeichenentropie über 0,8 oder unter 0,2 gleichfalls herausgefiltert. Das daraus resultierende Datenset DC-SBB[4] enthält 2,3 Millionen Seiten mit deutschsprachigen Texten aus historischen Dokumenten und steht auf Zenodo zum Download bereit. Mit diesen Daten wurde das von Google veröffentlichte multilinguale BERT-Base-Modell zunächst für 500 Stunden oder fünf Epochen trainiert. Eine “Epoche” bedeutet hier, dass das Modell jeden Eingabedatensatz mindestens einmal gesehen hat. Im nächsten Schritt wurde das erzeugte BERT-Modell speziell auf den Anwendungsfall NER trainiert. Hierfür werden neben dem CoNLL 2003 [26] Datensatz für Deutsch[5] und den GermEval 2014 [5] Daten[6] drei weitere Datensätze[7] von deutschsprachigen historischen Zeitungen aus dem Zeitraum 1710 - 1930 aus Deutschland, Österreich und Italien (Südtirol) herangezogen, die im Rahmen des EU-Projekts “Europeana Newspapers” [21] mit “Named Entities” annotiert wurden [20].

Das aus diesen Daten trainierte BERT-Modell für die NER wurde anschließend evaluiert. Dabei wurde besonders darauf geachtet, ob das unüberwachte Vortraining auf den in DC-SBB enthaltenen historischen OCR-Texten die Qualität der Erkennung für historische Daten verbessert. Das wurde durch die Evaluation bestätigt. Im Ergebnis liefert das Modell einen f1-Score[8] (harmonisches Mittel von Precision und Recall) von 84,3% und bewegt sich damit auf dem aktuellen Stand der Technik[9].

Seit Anfang 2020 wurde das Modell für die Sprachen Englisch, Französisch und Niederländisch erweitert. Diese Sprachen sind neben Latein die am häufigsten vorkommenden Sprachen in den digitalisierten Sammlungen der SBB-PK. Auch bestand die Erwartung, dass die Qualität der NER für deutsche Texte zunimmt, wenn das Modell zusätzlich auf andere Sprachen, für die ebenfalls entsprechende Trainingsdaten vorliegen, trainiert wird [4]. Diese Annahme hat sich in ersten Experimenten bestätigt, wird aber für den Shared Task HIPE[10] im Rahmen der CLEF Konferenz[11] 2020 noch systematisch evaluiert.
__________________________________________________________________________________

Named Entity Linking.

__________________________________________________________________________________

Die Beseitigung der Mehrdeutigkeit von Entitäten, das heißt die eindeutige Zuordnung beispielsweise der Zeichenkette „Jordan“ zu der Person „Michael Jordan“ oder dem Staat „Jordanien“ oder dem Fluss “Jordan”, sowie deren anschließende Verlinkung mit Wissensbasen wie der Gemeinsamen Normdatei (GND) oder Wikidata stellt ein übergeordnetes Ziel für die vorhergehenden Verfahren dar. Erst durch die Normalisierung (z.B. Namensansetzung) und anschließende Individualisierung erkannter benannter Entitäten können diese für statistische Auswertungen, die Verlinkung von Datenquellen und die Suche verfügbar gemacht werden. Aktuelle Ansätze hiefür scheitern meist auf Grund der besonderen Herausforderungen in Digitalisaten von historischen Quellen. Zum einen sind oft keine Referenzdaten für historische Namensansetzungen vorhanden, zum anderen sind die üblicherweise zum Abgleich verwendeten Wissensbasen (z.B. DBPedia) für einen Ähnlichkeitsvergleich zwischen historischen Dokumenten nicht passend.

Hierfür wird im Qurator-Projekt an der SBB-PK ein Verfahren entwickelt, das Embeddings verwendet. “Embeddings” wurden 2013 von Google entwickelt [15] und repräsentieren Wörter oder Zeichenketten als Vektoren in einem mehrdimensionalen Vektorraum. Begriffe, die häufig in ähnlichen Kontexten vorkommen, haben ähnlich gerichtete Vektoren. Embeddings ermöglichen somit, semantische Ähnlichkeiten mathematisch abzubilden.

In einem ersten Schritt wurden alle Artikel für Entitäten des Typs “Person”, “Ort” und “Körperschaft” aus der deutschen Wikipedia extrahiert und aus den Artikeltexten BERT-Embeddings gelernt. Aus den gewonnenen Embeddings lässt sich ein “Nearest-neighbor-Index” berechnen. Wird eine Entität in einem digitalisierten Dokument erkannt, so wird für den lokalen Kontext (z.B. Absatz oder Artikel), in dem die Entität vorkommt, ebenfalls ein BERT-Embedding berechnet. Anschließend wird auf der Basis des vorberechneten “Nearest-neighbor Index” ein Set von Entitäten-Kandidaten generiert, für die die vorberechneten Embedding-Vektoren den lokal berechneten Embedding-Vektoren besonders ähnlich sind, für die also der Text des Wikipedia-Artikels besonders gut mit dem lokalen Text übereinstimmt. Im letzten Schritt werden von einem speziell auf Satzpaaren trainierten Modell die Sätze aus der Wikipedia, in denen die Entität-Kandidaten vorkommen, mit dem Satz aus dem Digitalisat, in dem die Entität erkannt wurde, verglichen und so die aufgrund von Wahrscheinlichkeitsberechnungen am besten passende Entität ausgewählt und im Digitalisat mit dieser Wikidata-ID verknüpft.

Auch hierbei ergibt sich bei historischen Dokumenten eine besondere Schwierigkeit. Da in der Wikipedia zumeist kein Lemma für etwaige historische Schreibvarianten existiert, werden für die NEL sämtliche in digitalisierten Dokumenten erkannte Entitäten zuerst auf der Grundlage einer Übersetzungstabelle zur modernen Schreibweise normalisiert.

Ein konkreter Anwendungsfall für NEL wird derzeit an der SBB-PK im DFG-Projekt SoNAR (IDH)[12] erprobt: Ausgehend von Metadaten des Kalliope-Verbundkatalogs[13] sowie der Zeitschriftendatenbank[14] werden historische soziale Beziehungen rekonstruiert. Mithilfe von NER und NEL werden zusätzlich soziale Beziehungen aus Volltexten von historischen digitalisierten Zeitungen[15] der SBB-PK extrahiert. Auf dieser Grundlage wird von Medizinhistorikern untersucht, inwieweit solche automatisierte Verfahren für die Rekonstruktion historischer sozialer Netzwerke funktionieren und inwieweit sie auf andere Forschungsbereiche in der historischen sozialen Netzwerkanalyse übertragen werden können.

Der SBB-PK erstellt zudem ein dezidiertes Datenset historischer Ortsnamen, ordnet mittels semi-überwachten Matching-Verfahren deren modernen Entsprechungen zu und reichert es soweit möglich mit Geokoordinaten an. Durch die Verwendung eines hybriden Verfahrens für die Toponym-Auflösung, das geographische und semantische Merkmale berücksichtigt [1] sowie mit einer speziell für historische Ortsnamen geeigneten Wissensbasis kombiniert wird, sind deutliche Verbesserungen gegenüber dem gegenwärtigen Stand der Technik zu erwarten.

[1] https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
[2] https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
[3] https://github.com/saffsd/langid.py
[4] https://zenodo.org/record/3257041
[5] https://www.clips.uantwerpen.be/conll2003/ner/
[6] https://sites.google.com/site/germeval2014ner/
[7] https://github.com/EuropeanaNewspapers/ner-corpora
[8] https://en.wikipedia.org/wiki/F1_score
[9] Für die detaillierten Evaluationsergebnisse und deren Diskussion, siehe https://corpora.linguistik.uni-erlangen.de/data/konvens/proceedings/papers/KONVENS2019_paper_4.pdf
[10] https://impresso.github.io/CLEF-HIPE-2020/
[11] https://clef2020.clef-initiative.eu/
[12] https://sonar.fh-potsdam.de/
[13] https://kalliope-verbund.info/
[14] https://zdb-katalog.de/
[15] http://zefys.staatsbibliothek-berlin.de/
__________________________________________________________________________________

Zusammenfassung und Ausblick

__________________________________________________________________________________

Aktuelle KI-Verfahren bieten vielfältige Möglichkeiten zur gezielten Optimierung der Digitalisierung von historischen Dokumenten mit teils erheblichen Qualitätsgewinnen gegenüber “traditionellen” Methoden. Jedoch müssen die vielversprechenden Ansätze aus der KI-Forschung in den allermeisten Fällen auf die spezifischen Anforderungen der Bibliotheken angepasst werden [8]. Dafür werden große Mengen qualitativ hochwertiger Daten und Metadaten benötigt. Um mit “Deep Learning”- Verfahren geeignete Modelle aufzubauen, müssen die dafür verwendeten Datensets die Vielfalt und Charakteristika der historischen Drucke weitgehend abbilden.

Bibliotheken verfügen über ausreichend große Datenbestände, die aktuell im Digitalisierungsprozess entstehen, und über langjährig gemeinsam etablierte Standards und Regelwerke für deren Beschreibung und Erfassung. Dieses Expertenwissen sollte bei Auswahl und Erstellung von Trainingsdaten unbedingt genutzt werden, beispielsweise für die Ergänzung datengetriebener Verfahren mit regelbasierten Methoden.

Standards für die Beschreibung von KI-Verfahren, KI-Training und KI-Modellen sind wenig systematisiert und kaum verbreitet. Die Bereitstellung und Kuratierung entsprechender Verfahren und Datensätze für Maschinelles Lernen könnte gleichfalls von den Erfahrungen an Bibliotheken profitieren. Michael Ridley schreibt im “Library AI Blog”[1]: “Bottom line: the LIS field has extensive expertise and practical experience in creating and managing classification systems and the requisite metadata. We are good at this, we know the pitfalls, and it is a clear and compelling opportunity for LIS researchers and practitioners to be centrally involved in the creation of ML training datasets.”

Durch die Anwendung der von Qurator entwickelten Technologien für die digitalisierten Bestände der SBB-PK werden dringend gebotene Qualitätsverbesserungen, Verknüpfungen und neue Wissensquellen geschaffen, die mittel- und langfristig zu einer drastisch gesteigerten Recherchierbarkeit und Nachnutzbarkeit des kulturellen Erbes in Wissenschaft und Forschung führen sowie Potentiale für die kommerzielle Verwertung des kulturellen Erbes in der Kreativ- und Wissensindustrie freisetzen. Die SBB-PK beabsichtigt die Teststellung und gegebenenfalls produktive Inbetriebnahme der im Verbundprojekt entwickelten Werkzeuge. Das Beta-Portal[2] für die digitalisierten Sammlungen der SBB-PK soll dabei als Demonstrator für die im Rahmen von Qurator entwickelten Technologien für das digitalisierte kulturelle Erbe fungieren.

Als ein weiteres Resultat dieser Aktivitäten werden ausgewählte Datensätze aus der SBB-PK sowie darauf aufbauende innovative Anwendungen und Prototypen in einer experimentellen Lab-Umgebung vorgestellt, dem SBB LAB[3]. Dieses Datenportal soll die Weiterverwendung und Nachnutzung des digitalen kulturellen Erbes durch verschiedene Zugangsmöglichkeiten auf Daten in Form von APIs, Downloads, Dokumentation und Tutorials steigern und wird von den Erfahrungen und Ergebnissen von Qurator profitieren. Mehr dazu im SBB-Blog[4].

Referenzen

[1] Ardanuy, Mariona Coll und Sporleder, Caroline. Toponym disambiguation in historical documents using semantic and geographic features. Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage, pp. 175-180, 2017.

[2] Baierer, Konstantin; Dong, Rui und Neudecker, Clemens. okralact - a multi-engine Open Source OCR training system. Proceedings of the 5th International Workshop on Historical Document Imaging and Processing (HIP`19), 20-21 September 2019, Sydney, Australia, 2019.

[3] Barman, Raphaël; Ehrmann, Maud; Clematide, Simon; Oliveira, Sofia Ares und Kaplan, Frédéric. Combining Visual and Textual Features for Semantic Segmentation of Historical Newspapers. arXiv preprint arXiv:2002.06144, 2020.

[4] Baumann, Antonia. Multilingual Language Models for Named Entity Recognition in German and English. Student Research Workshop, pp. 21-27, 2019.

[5] Benikova, Darina; Biemann, Chris; Kisselew, Max und Pado, Sebastian. Germeval 2014 named entity recognition shared task: companion paper. 2014.

[6] Brantl, Markus; Ceynowa, Klaus; Meiers, Thomas und Wolf, Thomas. Visuelle Suche in historischen Werken. Datenbank Spektrum 17, 53–60, 2017.

[7] Clausner, Christian; Pletschacher, Stefan und Antonacopoulos, Apostolos. Quality Prediction System for Large-Scale Digitisation Workflows. Proceedings of the 12th IAPR International Workshop on Document Analysis Systems (DAS2016), Santorini, Greece, April 11-14, 2016.

[8] Cox, A. M.; Rutter, S. und Pinfield, S. The intelligent library: Thought leaders’ views on the likely impact of Artificial Intelligence on academic libraries. Library Hi Tech, 2018.

[9] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton und Toutanova, Kristina. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

[10] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing und Sun, Jian. Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778, 2016.

[11] Labusch, Kai; Neudecker, Clemens und Zellhöfer, David. BERT for Named Entity Recognition in Contemporary and Historic German. Proceedings of the 15th Conference on Natural Language Processing ("Konferenz zur Verarbeitung natürlicher Sprache", KONVENS), 9-11 Oktober 2019, Erlangen, 2019.

[12] Lewis, Mike; Liu, Yinhan; Goyal, Naman; Ghazvininejad, Marjan; Mohamed, Abdelrahman; Levy, Omer; Stoyanov, Ves und Zettlemoyer, Luke. BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv preprint arXiv:1910.13461 (2019).

[13] Long, Jonathan; Shelhamer, Evan und Darrell, Trevor. Fully convolutional networks for semantic segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3431-3440, 2015.

[14] Lui, Marco und Baldwin, Timothy. langid.py: An off-the-shelf language identification tool. Proceedings of the ACL 2012 system demonstrations, pp. 25-30. Association for Computational Linguistics, 2012.

[15] Mikolov, Tomas; Chen, Kai; Corrado, Greg und Dean, Jeffrey. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.

[16] Mödden, Elisabeth; Schöning-Walter, Christa und Uhlmann, Sandro. Maschinelle Inhaltserschließung in der Deutschen Nationalbibliothek/Breiter Sammelauftrag stellt hohe Anforderungen an die Algorithmen zur statistischen und linguistischen Analyse. 2018.

[17] Mustafa, W. A.; Khairunizam, Wan; Zunaidi, I.; Razlan, Z. M. und Shahriman, A. B. A Comprehensive Review on Document Image (DIBCO) Database. IOP Conference Series: Materials Science and Engineering, vol. 557, no. 1, p. 012006. IOP Publishing, 2019.

[18] Neudecker, Clemens; Baierer, Konstantin; Federbusch, Maria; Würzner, Kay-Michael; Boenig, Matthias; Herrmann, Elisa und Hartmann, Volker. OCR-D: An end-to-end open-source OCR framework for historical documents. Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage (DATeCH 2019), 8-10 Mai 2019, Brussels, 2019.

[19] Neudecker, Clemens und Rehm, Georg. Digitale Kuratierungstechnologien für Bibliotheken. 027.7 Zeitschrift für Bibliothekskultur / Journal for Library Culture, 4.2 (2016): 104-116., 2016.

[20] Neudecker, Clemens. An open corpus for named entity recognition in historic newspapers. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), pp. 4348-4352, 2016.

[21] Neudecker, Clemens und Antonacopoulos, Apostolos. Making Europe's Historical Newspapers Searchable. 2016 12th IAPR Workshop on Document Analysis Systems (DAS), Santorini, 2016, pp. 405-410, 2016.

[22] Padilla, Thomas. Responsible Operations: Data Science, Machine Learning, and AI in Libraries. Dublin, OH: OCLC Research, 2019.

[23] Paschke, Adrian; Neudecker, Clemens; Rehm, Georg; Al Qundus, Jamal und Pintscher, Lydia. Proceedings of the Conference on Digital Curation Technologies (Qurator 2020), 20-21 January 2020, Berlin, 2020.

[24] Rice, Stephen V. Measuring the Accuracy of Page-Reading Systems. Doctoral Dissertation, University of Nevada, Las Vegas, 1996.

[25] Ronneberger, Olaf; Fischer, Philipp und Brox, Thomas. U-net: Convolutional networks for biomedical image segmentation. International Conference on Medical image computing and computer-assisted intervention, pp. 234-241. Springer, Cham, 2015.

[26] Sang, Erik F.; Kim, Tjong und De Meulder, Fien. Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition. Development 922 (1837): 1341.

[27] Simonyan, Karen und Zisserman, Andrew. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.

[28] Springmann, Uwe; Reul, Christian; Dipper, Stefanie and Baiter, Johannes. Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern Latin. arXiv preprint arXiv:1809.05501, 2018.

[29] Strien, Daniel; Beelen, Kaspar; Coll Ardanuy, Mariona; Hosseini, Kasra; Mcgillivray, Barbara and Colavizza, Giovanni. Assessing the Impact of OCR Quality on Downstream NLP Tasks. International Conference on Agents and Artificial Intelligence (ICAART 2020), 2020.

[30] Uhlmann, Sandro. Automatische Beschlagwortung von deutschsprachigen Netzpublikationen mit dem Vokabular der Gemeinsamen Normdatei (GND). Dialog mit Bibliotheken 2, no. 1: 26-36, 2013.

[31] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Łukasz und Polosukhin, Illia. Attention is all you need. Advances in neural information processing systems, pp. 5998-6008, 2017.

[32] Vecera, Emanuel. Künstliche Intelligenz in Bibliotheken. Information - Wissenschaft & Praxis, 71(1), 49-52, 2020.

[33] Wick, Christoph; Reul, Christian und Puppe, Frank. Calamari - a high-performance tensorflow-based deep learning package for optical character recognition. arXiv preprint arXiv:1807.02004, 2018.

[34] Zwirn, Felix. Analyse und Auswertung von gewichteten Anforderungen in technischen Spezifikationen. Abschlussarbeit (Diplom) Fakultät Informatik, Elektrotechnik und Informationstechnik, 2013.




[1] https://libraryai.blog.ryerson.ca/2019/09/26/training-datasets-classification-and-the-lis-field/
[2] https://digital-beta.staatsbibliothek-berlin.de/
[3] https://lab.sbb.berlin/
[4] https://blog.sbb.berlin/sbb-lab/

Open Password

Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum

Neue Ausgaben von Open Password erscheinen viermal in der Woche.
Wer den E-Mai-Service kostenfrei abonnieren möchte - bitte unter www.password-online.de eintragen.
Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.

International Co-operation Partner:

Outsell (London)
Business Industry Information Association/BIIA (Hongkong)
header-newsletter-password
Open Password - Redaktion - PASSWORD - Redaktionsbüro Dr. Willi Bredemeier
Erzbergerstr. 9-11
45527 Hattingen
Tel.: (02324) 67009
E-Mail: w.bredemeier@password-online.de