Meine Werkzeuge
User menu

Harvesting

Aus ErwerbungsWiki

Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Definition

Mit dem Begriff Harvesting lassen sich zwei grundsätzlich unterschiedliche Vorgänge beschreiben.

1. Das Metadata-Harvesting, bei welchem über entsprechende Schnittstellen strukturiert Metadaten zu Informationsressourcen abgerufen werden können (s. Open Archives Initiative). Darunter fällt auch das Ablieferungsverfahren der Deutschen Nationalbibliothek für Netzpublikationen.

2. Das Web-Harvesting, bei dem das Internet automatisiert nach Informationen oder Dokumenten abgesucht wird. Die gefundenen Informationen können in diesem Prozess bereits für die Langzeitarchivierung vorbereitet werden.

Vorgehen

Das Web-Harvesting beginnt normalerweise mit der Identifikation und Spezifikation einer Liste von URLs als Eingabe für eine entsprechende Harvesting-Software und der Definition eines Suchalgorithmus. Die Software beginnt dann, die Informationen, welche sich unter den eingegebenen bzw. definierten URLs befinden, herunterzuladen. Enthaltenen Verlinkungen auf den Webseiten wird je nach Definition durch den Benutzer gefolgt, oder sie werden ignoriert. Wichtig ist für den Einsatz der Harvesting-Software die Definition der Suchtiefe, d.h. die Anzahl der Links, denen unter der Start-URL gefolgt werden soll. Die heruntergeladenen Inhalte werden dann von einer Suchmaschine indiziert und können Nutzern als durchsuchbare Web-Anwendung angeboten werden. Prominentestes Beispiele für ein Angebot, das auf Web-Harvesting basiert, ist die Wayback Machine des Internet Archive, über die Internetinhalte bis in die 90er Jahre gefunden werden können.

Rechtliche Fragen

Obwohl Web-Harvesting weltweit ein gängiges Verfahren im Internet ist (z.B. Internet Archive) ist das Web-Harvesting von Internetangeboten nach derzeitiger Rechtslage in Deutschland problematisch. So darf allgemein ohne Zustimmung des Urhebers keine Archivkopie angefertigt werden. Das Web-Harvesting ist in der Regel nur dann zulässig, wenn die Zustimmung des Urhebers vorliegt.

Open-Source-Software Web Harvest

Mit Web-Harvest gibt es eine in Java programmierte Open-Source-Software für die strukturierte Abschöpfung von Internetdaten. Die Software bietet die Möglichkeit, den Inhalt von Web-Seiten zu sammeln und die enthaltenen nützlichen Daten zu extrahieren. Dafür verwendet die Software XML-Techniken wie XSLT, XQuery und reguläre Ausdrücke. Web-Harvest konzentriert sich hauptsächlich auf HTML / XML-basierte Web-Sites, auf denen die bis heute große Mehrheit der Web-Inhalte zu finden ist.


Literatur

Nestor Handbuch Version 2.3. Volltext unter: http://nestor.sub.uni-goettingen.de/handbuch/nestor-handbuch_23.pdf

Euler, Ellen: „Web-Harvesting vs. Urheberrecht : was Bibliotheken und Archive dürfen und was nicht“. In: Computer und Recht 2008/1, S. 64-68.

Liegmann, Hans: „Web-Harvesting zur Langzeiterhaltung von Internet-Dokumenten“. In: nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Volltext unter http://nestor.sub.uni-goettingen.de/handbuch/artikel/nestor_handbuch_artikel_146.pdf

Euler, Ellen / Steinhauer, Eric W. / Bankhardt, Christina: „Digitale Langzeitarchivierung als Thema für den 3. Korb zum Urheberrechtsgesetz: Urheberrechtliche Probleme der digitalen Langzeitarchivierung - Stellungnahme der AG Recht im Kompetenznetzwerk nestor.“ In: Bibliotheksdienst 45:3/4 (2011), S. 322-328. Volltext unter: http://www.zlb.de/aktivitaeten/bd_neu/heftinhalte2011/Recht01030411_BD.pdf


Weiterführende Weblinks

Ablieferungsverfahren der DNB für Netzpublikationen

Open Archives Initiative Protocol for Metadata Harvesting

Web Harvest Software

  • Diese Seite wurde zuletzt am 12. April 2013 um 13:33 Uhr geändert.
  • Diese Seite wurde bisher 1.759-mal abgerufen.