Konvertierung von PDF in XML für die Langzeitarchivierung und Weiterverarbeitung

dc.bibliographicCitation.journalTitleABI Technikeng
dc.contributor.authorBähr, Thomas
dc.contributor.authorFriedrichsen, Merle
dc.date.accessioned2018-11-25T09:30:20Z
dc.date.available2019-06-28T13:17:25Z
dc.date.issued2017
dc.description.abstractIn der Darstellung, Weitergabe und Aufbewahrung elektronischer Publikationen steht das Format PDF unangefochten an erster Stelle. Die Stärken des ISO-standardisierten Formats liegen in der Plattform- und Hardwareunabhängigkeit, in der seitengenauen Darstellung von Publikationen sowie in der einfachen Navigierbarkeit von komplexen Dokumenten. Dank der stetigen Weiterentwicklung des Formats existiert mittlerweile eine große Anzahl an PDF Profilen wie PDF/A, PDF/X, PDF/UA oder PDF/E. Eine flexiblere Dokumentendarstellung ermöglicht hingegen die eXtensible Markup Language XML, welche nicht nur im Web, sondern auch vermehrt in der Druckvorstufe eingesetzt wird. Wie PDF ist auch XML medienneutral und plattformunabhängig. Im Gegensatz zu PDF-Dokumenten erlaubt XML hingegen mittels Erfassung der Inhalte in einer dokumentierten und transparenten Struktur eine Validierung der Inhalte wie auch eine gezielte Weiternutzung einzelner Teilinhalte. Die Technische Informationsbibliothek (TIB) führte eine Analyse zur Machbarkeit einer PDF-nach-XML-Konvertierung durch. Ziel ist die Vorhaltung von XML-Dokumenten für zwei Prozesse: Erstens zur automatischen Katalogisierung von Kongressbänden auf Aufsatzebene, zweitens zur Aufbewahrung einer parallelen Repräsentation neben PDF-Dokumenten im Langzeitarchiv. Dieser Artikel stellt die Ergebnisse der Machbarkeitsstudie dar.eng
dc.description.abstractPDF is without a doubt the most common file format choice when it comes to presenting, sharing and preserving electronic publications. The strengths of the ISO-standardized format lie in its independent platform and hardware, its page-exact rendering of publications as well as its smooth navigation of complex documents. Due to the ever-growing requirements of the community, a number of profiles for the file format exist today, such as: PDF/A, PDF/X, PDF/UA or PDF/E. The eXtensible Markup Language XML, on the other hand, allows for more flexible handling of document display, leading to a high adoption of the format not only in the web but also in printing and publishing processes. Like PDF, XML is media-neutral and platform-independent. Contrary to PDF, XML makes use of a transparent and well-documented content structure, allowing for validation processes as well as for extraction processes targeting specific content parts. TIB (the Technische Informationsbibliothek) conducted a proof-of-concept study on PDF to XML conversion. The study’s background is the usage of XML as a second representation of the original PDF content in the digital archive. This article presents the outcome of the proof-of-concept.eng
dc.description.versionpublishedVersioneng
dc.identifier.urihttps://oa.tib.eu/renate/handle/123456789/4429
dc.language.isogereng
dc.publisherHannover : Technische Informationsbibliothekeng
dc.relation.doihttps://doi.org/10.15488/3918
dc.rights.licenseThis document may be downloaded, read, stored and printed for your own use within the limits of § 53 UrhG but it may not be distributed via the internet or passed on to external parties.eng
dc.rights.licenseDieses Dokument darf im Rahmen von § 53 UrhG zum eigenen Gebrauch kostenfrei heruntergeladen, gelesen, gespeichert und ausgedruckt, aber nicht im Internet bereitgestellt oder an Außenstehende weitergegeben werden.ger
dc.subject.ddc020eng
dc.subject.otherStrukturanalyseeng
dc.subject.otherDateiformatkonvertierungeng
dc.subject.otherautomatische Layouterkennungeng
dc.subject.otherStrucutral Analysiseng
dc.subject.otherFile Format Conversioneng
dc.subject.otherAutomatic Layout recognitioneng
dc.titleKonvertierung von PDF in XML für die Langzeitarchivierung und Weiterverarbeitungeng
dc.typeArticleeng
dc.typeTexteng
tib.accessRightsopenAccesseng
wgl.contributorTIBeng
wgl.subjectInformatikeng
wgl.typeZeitschriftenartikeleng
Files