Estimating the information gap between textual and visual representations

2017, Henning, Christian, Ewerth, Ralph

Photos, drawings, figures, etc. supplement textual information in various kinds of media, for example, in web news or scientific pub- lications. In this respect, the intended effect of an image can be quite different, e.g., providing additional information, focusing on certain details of surrounding text, or simply being a general il- lustration of a topic. As a consequence, the semantic correlation between information of different modalities can vary noticeably, too. Moreover, cross-modal interrelations are often hard to describe in a precise way. The variety of possible interrelations of textual and graphical information and the question, how they can be de- scribed and automatically estimated have not been addressed yet by previous work. In this paper, we present several contributions to close this gap. First, we introduce two measures to describe cross- modal interrelations: cross-modal mutual information (CMI) and semantic correlation (SC). Second, a novel approach relying on deep learning is suggested to estimate CMI and SC of textual and visual information. Third, three diverse datasets are leveraged to learn an appropriate deep neural network model for the demanding task. The system has been evaluated on a challenging test set and the experimental results demonstrate the feasibility of the approach.

Towards OSGeo best practices for scientific software citation: Integration options for persistent identifiers in OSGeo project repositories

2017, Löwe, Peter Heinz, Neteler, Markus, Goebel, Jan, Tullney, Marco

As a contribution to the currently ongoing larger effort to establish Open Science as best practices in academia, this article focuses on the Open Source and Open Access tiers of the Open Science triad and community software projects. The current situation of research software development and the need to recognize it as a significant contribution to science is introduced in relation to Open Science. The adoption of the Open Science paradigms occurs at different speeds and on different levels within the various fields of science and crosscutting software communities. This is paralleled by the emerging of an underlying futuresafe technical infrastructure based on open standards to enable proper recognition for published articles, data, and software. Currently the number of journal publications about research software remains low in comparison to the amount of research code published on various software repositories in the WWW. Because common standards for the citation of software projects (containers) and versions of software are lacking, the FORCE11 group and the CodeMeta project recommending to establish Persistent Identifiers (PIDs), together with suitable metadata setss to reliably cite research software. This approach is compared to the best practices implemented by the OSGeo Foundation for geospatial community software projects. For GRASS GIS, a OSGeo project and one of the oldest geospatial open source community projects, the external requirements for DOI-based software citation are compared with the projects software documentation standards. Based on this status assessment, application scenarios are derived, how OSGeo projects can approach DOI-based software citation, both as a standalone option and also as a means to foster open access journal publications as part of reproducible Open Science.

Tagungsbericht VIVO-Workshop 2017 - “Forschungsinformationen in der Praxis”

2017, Mersmann, Jana, Hauschke, Christian

Der Wissens- und Erfahrungsaustausch stand im Fokus des 2.VIVO-Workshop 2017 an der Technischen Informationsbibliothek (TIB) in Hannover. Der Workshop, der von rund 40 Teilnehmer/innen aus deutschsprachigen Hochschulen und Universitäten besucht wurde, war in zwei verschiedene Session unterteilt. In vorangestellten Vorträgen wurden sowohl technische Anpassungen und Weiterentwicklungen am Forschungsinformationssystem VIVO an einzelnen Einrichtungen erläutert, als auch Erfahrungsberichte einzelner Anwender/innen geteilt sowie Einsatzmöglichkeiten von VIVO in verschiedenen Kontexten thematisiert. Im anschließenden interaktiven Teil wurden Bedarfe und Herausforderungen diskutiert und gesammelt, die anschließend priorisiert wurden. Als Herausforderungen für die VIVO-Entwickler kristallisierten sich Verbesserungen in den Bereichen Reporting, Datenintegration und einem in den Administrationsbereich integrierten Rollenmanagement heraus. Der Workshop adressierte sehr erfolgreich den ebenso vielfach geäußerten Wunsch nach Vernetzung, Austausch und Fortbildung innerhalb der VIVO-Community und darüber hinaus.

Publikationen und Gender-Effekte in der Mathematik

2018, Mihaljević, Helena, Santamaría, Lucía, Tullney, Marco

Die Unterrepräsentation von Frauen in der wissenschaftlichen Mathematik hält trotz steigender Absolventinnenzahlen an. Publikationen sind ein wesentlicher Baustein wissenschaftlicher Karrieren. Deshalb werden sie in unserer Arbeit analysiert. Es werden zentraler Ergebnisse eines Forschungsartikels ( vorgestellt, weitere Forschung angekündigt und schließlich zu einer Diskussion eingeladen. Die Ergebnisse zeigen deutliche Unterschiede beim Publikationsverhalten zwischen Frauen und Männern mit Karrierenachteilen für Frauen. Die Geschlechterzuschreibung erfolgte algorithmisch auf Basis von Einträgen in zbMATH.

Survey: Open Science in Higher Education

2017, Heck, Tamara, Blümel, Ina, Heller, Lambert, Mazarakis, Athanasios, Peters, Isabella, Scherp, Ansgar, Weisel, Luzian

Based on a checklist that was developed during a workshop at OER Camp 2016 and presented as a Science 2.0 conference 2016 poster [1], we conducted an online survey among university teachers representing a sufficient variety of subjects. The survey was online from Feb 6th to March 3rd 2017. We got 360 responses, whereof 210 were completes, see raw data [2]. The poster is presented at Open Science Conference, 21.-22.3.2017, Berlin.

Service durch Kompetenzbündelung - Das institutionelle Konzept zum Forschungsdatenmanagement der Leibniz Universität Hannover

2017, Meyer, Anneke, Neumann, Janna

Die Leibniz Universität Hannover hat den bedarfsgerechten Auf- und Ausbau des Unterstützungsangebots zum Umgang mit Forschungsdaten als strategisches Ziel definiert, um den eigenen Forschungsstandort zu stärken. Fachpersonal aus dem Dezernat Forschung, den Leibniz Universität IT Services (LUIS) und der Technischen Informationsbibliothek (TIB) haben dazu ein institutionelles Konzept entworfen, das seit Dezember 2016 umgesetzt wird. Ausgangspunkt des Konzepts bildete eine Umfrage zum Umgang mit Forschungsdaten an der Leibniz Universität Hannover, die durch qualitative Interviews ergänzt wurde. Das institutionelle Konzept umfasst folgende Elemente: Etablierung einer Policy zum Umgang mit Forschungsdaten für die gesamte Universität, Beratung und Schulung für Wissenschaftlerinnen und Wissenschaftler und die Service-Einrichtungen, Auf- und Ausbau eines institutionellen Datenrepositoriums und Entwicklung von Schnittstellen zum Forschungsinformationssystem und zum Volltextrepositorium, Universitätsübergreifende Kooperation & Vernetzung. Die vier Elemente befinden sich in einem unterschiedlichen Umsetzungsstand. Bereits seit 2014 führen die beteiligten Institutionen gemeinsam Beratungen und Schulungen durch und nutzen dafür zur Qualitätssicherung und gegenseitigen Information gemeinsame Dokumentationssysteme. In diesem Bereich konnten in den letzten zwei Jahre Erfahrungen gesammelt werden und Prozesse entsprechend optimiert werden. Die Herausforderung des Ansatzes an der Leibniz Universität besteht darin, ein einrichtungsübergreifendes Service-Angebot vorzuhalten und kollaborativ weiter zu entwickeln. Dadurch ist gewährleistet, dass Kompetenzen effektiv gebündelt werden und sich keine Parallelstrukturen an einzelnen Einrichtungen bilden. Durch die gemeinsam entwickelten Services werden Wissenschaftlerinnen und Wissenschaftler mit einer Stimme und auf mehreren Ebenen zum aktiven und bewussten Umgang mit Forschungsdaten angeregt. In diesem Artikel werden die ersten Erfahrungen in der Umsetzung der einzelnen Elemente des institutionellen Konzepts sowie in der Zusammenarbeit beleuchtet. Außerdem wird ein Ausblick auf die zukünftig angestrebte Entwicklung gegeben.

Semantic modelling of video annotations – the TIB AV-Portal's metadata structure

2018, Saurbier, Felix

The TIB AV-Portal ( is an online platform for sharing scientific videos operated by the German National Library of Science and Technology (TIB). Besides the allocation of Digital Object Identifiers (DOI) and Media Fragment Identifiers (MFID) for video citation, long-term preservation of all material and open licenses like Creative Commons, the core feature of the TIB AV-Portal are its various methods of automated metadata extraction to fundamentally improve search functionalities (e.g. fine-grained search and faceting). These comprise of an automated chaptering, extraction of superimposed text, speech to text recognition, and the detection of predefined visual concepts. In addition, extracted metadata are consequently mapped against authority files like the German “Gemeinsame Normdatei” and knowledge bases like DBpedia and Library of Congress Subject Headings via a process of automated named entity linking (NEL) to enable semantic and cross-lingual search. The results of this process are expressed as temporal and/or spatial video annotations, linking extracted metadata to certain key frames and video segments. In order to structure the data, express relations between single entities, and link to external information resources, several common vocabularies, ontologies and knowledge bases are being used. These include amongst others the Open Annotation Data Model, the NLP Interchange Format (NIF), BIBFRAME, the Friend of Friend Vocabulary (FOAF), and Furthermore, all data is stored adhering to the Resource Description Framework (RDF) data model and published as linked open data. This provides third parties with an interoperable and easy to reuse RDF graph representation of the AV-Portal’s metadata. On our poster we illustrate the general structure of the TIB AV-Portal’s comprehensive metadata both authoritative and extracted automatically. Here, the main focus is on the underlying video annotation graph model and on semantic interoperability and reusability of the data. In particular we visualize how the use of vocabularies, ontologies and knowledge bases allows for rich semantic descriptions of video materials as well as for easy metadata publication, interlinking, and opportunities of reuse by third parties (e.g. for information retrieval and enrichment). In doing so, we present the AV-Portal’s metadata structure as an illustrative example for the complexity of modelling temporal and spatial video metadata and as a set of best practices in the field of audio-visual resources.

A PDF Test-Set for Well-Formedness Validation in JHOVE - The Good, the Bad and the Ugly

2017, Lindlar, Michelle, Tunnat, Yvonne, Wilson, Carl

Digital preservation and active software stewardship are both cyclical processes. While digital preservation strategies have to be reevaluated regularly to ensure that they still meet technological and organizational requirements, software needs to be tested with every new release to ensure that it functions correctly. JHOVE is an open source format validation tool which plays a central role in many digital preservation workflows and the PDF module is one of its most important features. Unlike tools such as Adobe PreFlight or veraPDF which check against requirements at profile level, JHOVE’s PDF-module is the only tool that can validate the syntax and structure of PDF files. Despite JHOVE’s widespread and long-standing adoption, the underlying validation rules are not formally or thoroughly tested, leading to bugs going undetected for a long time. Furthermore, there is no ground-truth data set which can be used to understand and test PDF validation at the structural level. The authors present a corpus of light-weight files designed to test the validation criteria of JHOVE’s PDF module against “well-formedness”. We conclude by measuring the code coverage of the test corpus within JHOVE PDF validation and by feeding detected inconsistencies of the PDF-module back into the open source development process.

“Are machines better than humans in image tagging?” - A user study adds to the puzzle

2017, Ewerth, Ralph, Springstein, Matthias, Phan-Vogtmann, Lo An, Schütze, Juliane

“Do machines perform better than humans in visual recognition tasks?” Not so long ago, this question would have been considered even somewhat provoking and the answer would have been clear: “No”. In this paper, we present a comparison of human and machine performance with respect to annotation for multimedia retrieval tasks. Going beyond recent crowdsourcing studies in this respect, we also report results of two extensive user studies. In total, 23 participants were asked to annotate more than 1000 images of a benchmark dataset, which is the most comprehensive study in the field so far. Krippendorff’s α is used to measure inter-coder agreement among several coders and the results are compared with the best machine results. The study is preceded by a summary of studies which compared human and machine performance in different visual and auditory recognition tasks. We discuss the results and derive a methodology in order to compare machine performance in multimedia annotation tasks at human level. This allows us to formally answer the question whether a recognition problem can be considered as solved. Finally, we are going to answer the initial question.

Wissenschaftliche Videos im Semantic Web - das AV Portal der TIB in der Linked Open Data Cloud

2017, Saurbier, Felix

Die Technische Informationsbibliothek (TIB) hat sich zum Ziel gesetzt, die Nutzung und Verbreitung ihrer Sammlungen nachhaltig zu fördern und setzt dazu konsequent auf Semantic Web-Technologien. Durch die Bereitstellung von "Linked Library Data" können Bibliotheken und Informationsdienstleister die Sicht- und Auffindbarkeit ihrer Bestände signifikant erhöhen. Denn zum einen vereinfachen strukturierte Daten, die interoperabel sowie maschinenlesbar sind, die Nachnutzung durch Dritte entscheidend. Zum anderen ermöglichen sie wesentlich differenziertere sowie effizientere Suchanfragen und unterstützen Bibliotheksnutzer sowohl im Retrieval als auch in der Weiterverarbeitung der für sie relevanten Informationen. Vor diesem Hintergrund veröffentlicht die TIB umfangreiche Meta- und Erschließungsdaten der wissenschaftlichen Filme ihres AV-Portals im standardisierten Resource Description Format (RDF) und stellt auf diesem Weg einen neuen und innovativen Service zur Nachnutzung und Verlinkung ihrer Datensätze zur Verfügung. In unserem Vortrag möchten wir zeigen, welche Mehrwerte sich auf Basis der eingesetzten Linked Open Data-Technolgien im Kontext audiovisueller Medien generieren lassen und die Nutzung von Linked Open Data im AV-Portal der TIB vorstellen. Besonderes Augenmerk soll dabei erstens auf den semantischen Erschließungsdaten liegen, die durch automatisierte Verfahren der Bild-, Text- und Spracherkennung generiert werden. Zweitens sollen die darauf aufbauenden Mehrwertdienstleistungen - wie die semantische Anreicherung mit zusätzlichen relevanten Informationen und die Verlinkung weiterführender Ressourcen - vorgestellt werden. Schließlich soll drittens demonstriert werden, wie durch die Bereitstellung der autoritativen sowie zeitbasierten, automatisch generierten Metadaten als Linked Open Data unter einer Creative Commons-Lizenz die freie Nachnutzung der Daten des AV-Portals durch Dritte ermöglicht wird.