header-newsletter-password

Open Password - Freitag, den 19. März 2021

# 901



Maschinelles Lernen – Bildähnlichkeitssuche – Künstliche Intelligenz – Historische Bibliotheksbestände – Klaus Kempf – Markus Brantl – Thomas Meiers – Thomas Wolf – Münchener Digitalisierungszentrum – Bayerische Staatsbibliothek – DFG – Google – Digitalisierung – Erschließung – Optical Character Recognition – Automatisierte Indexierung – Heinrich-Hertz-Institut – Text-Bild-Trennung - Deutscher Bibliothekstag - Themenschwerpunkte - AI-SDV - Christopf Haxel


Bibliothekartag
Deutscher Bibliothekartag

Die Themenschwerpunkte

Von politischen und gesellschaftlichen Herausforderungen bis Forschungsdaten und forschungsnahen Dienstleistungen

15. bis 18. Juni 2021, 109. Deutscher Bibliothekartag – Buten und Binnen – wagen un winnen, in Bremen - Die Themenschwerpunkte:


Themenkreis 1: Politische und gesellschaftliche Herausforderungen (hier auch: Covid19-Themen)
Themenkreis 2: Bibliothek als physischer Ort
Themenkreis 3: Ausbildung, Weiterbildung & Personalentwicklung
Themenkreis 4: Technik und IT-Infrastruktur
Themenkreis 5: Content und Digitalisierung
Themenkreis 6: Forschungsdaten und forschungsnahe Dienstleistungen
Themenkreis 7: Management und Organisation

AI-SDV

From Artificial Intelligence and
New Tools for Competitive Intelligence to Advances in Text Analysis

Dear Colleagues,
The show must go on – physically or online. Please take that on board and make your positive plans for 2021. The call for papers is open and Early Bird Exhibition Booking with special prices is possible … more @ www.ai-sdv.com

AI-SDV brings together specialists in scientific and technical information, who want to update themselves and learn the latest from practitioners and technology specialists working in the field of AI, text and data mining, analytics, digitization 2.0, deep learning, visualisation, etc. The conference is an integral part of a two-day event of learning, networking and exploring technologies and concepts that are changing the way individuals and organisations work, rest and play.

Conference topics may include, but are not limited to:
  • User – vendor case study relating to successful software implementation
  • AI, Machine Learning, Machine Translation and Deep Learning
  • New tools for competitive intelligence
  • Search engine development, personalisation, recommendation engines, collaborative filtering
  • Scraping content, semantic technologies
  • New visualization tools and mapping
  • Innovative tools for analysing or manipulating big data including news analysis
  • Text and Data Mining tools
  • Advances in text searching and analysis such as patent, techno-economic and news searching), mining, mapping and analysis
  • User identification and testing new information tools
  • Training and adoption
The conference includes plenary sessions, expert panels and product updates from practitioners, vendors and subject matter specialists.
Presentation submissions should include:
  • An engaging title
  • Short descriptive abstract - what attendees will take away from your talk
  • Speaker biography (max 200 words)
News of new innovative products or beta versions with substantial upgrades may also be of interest to attendees.

Presentations accepted will be expected to make real contributions within the field of scientific, technical, business, patent and information searching, analysis and data mining – or in furthering the understanding of meeting participants within these areas.

All presentations will be in plenary sessions to the full conference audience (virtually or physically) – there are no parallel or breakout sessions taking place.

Conference language is English. Presenters receive one complimentary pass to the two-day conference (one registration per presentation). Speaker reimbursement is not normally provided.
Please send your proposals to Christoph Haxel at Dr. Haxel CEM GmbH (c @ haxel.com)
Deadline: 30. April 2021 However, we would also welcome proposals, suggestions, sponsorship enquiries, etc. prior to this date.

There are also a very limited number of exhibition (table-top) spaces available on a strictly first-come, first-served basis. Please contact the organisers early to secure a place. An additional benefit of exhibiting is that all exhibitors are provided with a short “product presentation” slot during the main conference.

I am looking forward to seeing you in nice Nice – physically or online.

Kind regards Christoph Haxel
Maschinelles Lernen

Auf der Suche nach dem verborgenen Bild

Künstliche Intelligenz erschließt
historische Bibliotheksbestände

Die Motivation, die Herausforderungen, Automatisierte Trennung von Texten und Bildern

Von Klaus Kempf, Markus Brantl, Thomas Meiers und Thomas Wolf

__________________________________________________________________________________

Die Motivation
__________________________________________________________________________________

Seit 23 Jahren werden im Münchener Digitalisierungszentrum (MDZ) die reichhaltigen und weltweit einzigartigen Sammlungen der Bayerischen Staatsbibliothek (BSB) digitalisiert und online bereitgestellt. Was 1997 als experimentelles Projekt mit Anschubfinanzierung der Deutschen Forschungsgemeinschaft begann, ist binnen weniger Jahre zu einem der wichtigsten Geschäftsgänge der Bayerischen Staatsbibliothek geworden. Durch die Zusammenarbeit mit Google wurde der digitale Bestandsaufbau seitdem Jahr 2007 stark erweitert. Die Anzahl der digitalisierten Werke stieg von einigen zehntausend auf aktuell über 2,5 Millionen. Der größte Teil des Altbestandes vor 1900 und damit rund ein Zehntel des Gesamtbestandes der Bibliothek ist inzwischen auch in digitaler Form verfügbar. Dabei handelt es sich um Werke aus zwölf Jahrhunderten. Von koptischen Papyri des 6. Jahrhunderts über mittelalterliche Handschriften, neuzeitliche Inkunabeln bis hin zu Druckwerken des späten 19. und frühen 20. Jahrhunderts ist alles dabei.


Doch Digitalisierung allein genügt nicht. Ein wichtiger Aspekt der Benutzbarkeit der digitalen Werke ist ihre Erschließung. Zwar ist jedes dieser Werke durch umfangreiche, qualifizierte ebenfalls online verfügbare bibliographische Metadaten erfasst. Indes erfordert die Erfassung der Struktur zum Beispiel eines digitalisierten mittelalterlichen Buches, also der Überschriften, Kapitelnummern, der nativen Seitenzählung, der Illustrationen usw. immer noch aufwendige und teure Handarbeit. Diese Art Erschließung kann nur für einen Bruchteil der digitalisierten Werke bereitgestellt werden, und so bleiben die Inhalte dieser Werke meist verborgen, bis diese Seite für Seite am Bildschirm durchblättert werden. Für gedruckte Werke neueren Datums kann mittels automatisierter Optical Character Recognition-Verfahren (OCR) zumindest der Text maschinenlesbar gut transformiert und zugänglich gemacht werden. Andere wesentliche Inhalte, wie zum Beispiel Abbildungen, bleiben weiterhin verborgen.

Diese Situation – fehlende strukturelle Informationen für eine große Zahl von Werken und fehlende Kenntnis über die enthaltenen Illustrationen – war für die Bayerische Staatsbibliothek die Motivation, bei der Erschließung des Bestandes neue Wege im Zugang zu beschreiten, weg von der textorientieren Suche in bibliographischen, textbasierten Metadaten, hin zur automatisierten Indexierung und Suche der Vergleichsmerkmale von Bildern. Der Idee der Schaffung einer neuen bildorientierten Zugangsform folgte eine intensive Marktsichtung. Schließlich wurde 2011 gemeinsam mit dem Fraunhofer Heinrich-Hertz-Institut (HHI) in Berlin das innovative und seinerzeit weltweit einmalige Projekt einer Bildähnlichkeitssuche begonnen.

Das Fraunhofer Heinrich-Hertz-Institut besitzt langjährige Erfahrung und umfangreiches Know-How mit automatischen Bilderkennungs- und Bildanalyse-Systemen. Noch 2011 konnte eine erste prototypische Applikation zur Bildähnlichkeitssuche auf der Basis einer kleinen Auswahl von 250 digitalisierten Werken umgesetzt werden. Dieser erste Anwendungsfall zeigte das Potential der vorhandenen Möglichkeiten auf. Es wurde aber klar, dass hier noch ein längerer Weg beschritten werden musste, um eine benutzbare Applikation bereitstellen zu können. Heute stehen - täglich mit Fortschritt der digitalen Produktion aktualisiert – über 54 Millionen Bilder und Bildsegmente online frei zur Verfügung.

__________________________________________________________________________________

Die Herausforderungen _________________________________________________________________________________

Die erste Herausforderung bestand darin, Text und Bild automatisiert zu unterscheiden und zu trennen. Denn die von Fraunhofer Heinrich-Hertz-Institut (HHI) bereitgestellte und in der prototypischen Anwendung eingesetzte Bilderkennungs-Software war bislang ausschließlich für die Ermittlung von Plagiaten moderner Digitalfotografien eingesetzt. Die Software lieferte mit Fotografien (digitale Einzelbilder) sehr gute Ergebnisse, aber im Falle der gescannten historischen Buchseiten war dieses Verfahren, das zunächst eine Buchseite als ein Bild betrachtete, nicht zielführend. So musste in einem ersten Schritt ein Verfahren entwickelt werden, um Text und Bild voneinander zu unterscheiden und die erkannten Bilder beziehungsweise Bildsegmente performant zu extrahieren.

Die zweite Herausforderung war unmittelbar mit der ersten verbunden. Eine Buchseite kann mehr als eine Illustration enthalten. Es sollten nach Möglichkeit natürlich alle Bilder einer Seite erkannt werden und in Abgrenzung zum Text auf dem Image lokalisiert werden.

Die dritte Herausforderung war die Extraktion der visuellen Merkmale der Bilder. Erschwerend kam hinzu, dass von Anfang an die Ambition bestand, alle Bilder aus allen Werken über den gesamten Bestand hinweg durchsuchbar zu machen. Kunstvolle Miniaturen auf mittelalterlichem Pergament, Holzschnitte auf Büttenpapier, kolorierte Kupferstiche in unterschiedlichsten Größen, verwoben mit Textelementen, filigrane Stahlstiche auf Seidenpapier und nicht zuletzt grob gerasterte Fotografien auf stark vergilbtem, billigem Papier von Büchern und Zeitungen der Neuzeit – all diese Bilder sollten in einer Suche auffindbar sein, ohne sich an Epochen oder Bestandsgrenzen orientieren zu müssen.

Die vierte Herausforderung ergab sich aus den spezifischen Eigenheiten des Bestandes: Stockflecken sind keine Bilder, Risse, Eselsohren ebenfalls nicht. Es galt somit diese „Bildtypen“ zu identifizieren und mittels Verfahren des maschinellen Lernens Irrelevantes herauszufiltern und die individuellen Merkmale für eine Ähnlichkeitssuche zu ermitteln.

Text-Bild-Trennung. Die eingesetzte Text-Bild-Trennung nutzt Verfahren, die in ähnlicher Form als Vorstufe einer OCR-Segmentierung zum Einsatz kommen. Hier werden sie umgekehrt genutzt, um Bilder auf Buchseiten zu extrahieren. Seite für Seite werden Textflächen von Nichttextflächen getrennt. Es wird ein Ansatz verwendet[1], der auf einer Folge morphologischer Operationen basiert. Im ersten Schritt wird eine Otsu-Binarisierung des Grauwertbildes durchgeführt (siehe Abbildung 1, Schritt 1). Liegt der Helligkeitswert eines Pixels unter einem Schwellenwert, wird der Wert auf 1 (Vordergrund), sonst auf 0 (Hintergrund) gesetzt.

[1] Vgl. hierzu: Bloomberg D.S. (1991), Multiresolution morphological approach to document image analysis. In: Proc. Int. Conf. Document Analysis and Recognition (ICDAR 1991): S. 963–971 und Bukhari S.S., Shafait F., and Breuel T.M. (2011), Improved document image segmentation algorithm using multiresolution morphology. Proc. SPIE7874, Document Recognition and Retrieval XVIII.

Bildähnlichkeit 1
Abbildung 1: Verarbeitungsschritte bei der Text-Bild-Trennung

Es werden hauptsächlich morphologische Operationen verwendet, welche einen 2x2-Pixel umfassenden Block durch ein einzelnes Pixel ersetzen. Ist die Summe der Pixelhelligkeitswerte des Blocks größer oder gleich einem Schwellwert T, der zwischen 1 und 4 liegen kann, so erhält das neue Pixel den Wert 1, sonst 0. Durch diese morphologische Operation wird das Bild um den Faktor 2 in Breite und Höhe verkleinert, wobei je nach Größe des Schwellenwertes kleine Strukturen verschwinden. Diese Operation wird viermal hintereinander mit den Schwellenwerten 1, 1, 4 und 3 durchgeführt, wodurch das Bild verkleinert wird und „kleine“ Strukturen wie Buchstaben verschwinden (siehe Abbildung 1, Schritt 2).

Übrig bleiben Bereiche, die größere zusammenhängende Strukturen wie Linien und Flächen beinhalten. Diese Bereiche werden mit dem originalen Binärbild überlagert. Mit der morphologischen Operation „Dilatation“ werden Löcher gefüllt (siehe Abbildung 1, Schritt 3). Als Ergebnis erhält man zusammenhängende Bereiche, die jeweils zu einem Rechteck aufgefüllt werden. Diese Rechtecke umfassen die Nicht-Textflächen und kommen als Bilder oder Grafiken in Frage. Dabei werden alle individuellen Bilder jeder Buchseite erfasst.

Lesen Sie in der nächsten Folge: Extraktion visueller Merkmale – Aussortieren irrelevanter Bilder – Effiziente parallele Suche – Flankierende Indexierung auf der Basis textueller Metadaten


Open Password

Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum

Neue Ausgaben von Open Password erscheinen viermal in der Woche.
Wer den E-Mai-Service kostenfrei abonnieren möchte - bitte unter www.password-online.de eintragen.
Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.

International Co-operation Partner:

Outsell (London)
Business Industry Information Association/BIIA (Hongkong)
header-newsletter-password
Open Password - Redaktion - PASSWORD - Redaktionsbüro Dr. Willi Bredemeier
Erzbergerstr. 9-11
45527 Hattingen
Tel.: (02324) 67009
E-Mail: w.bredemeier@password-online.de