Mithelfen, das Internet vollautomatisch zu archivieren

Mit dem Archive Team Warrior können wir das Archive Team dabei unterstützen, Inhalte im Internet zu archivieren, bevor sie gelöscht werden. Dabei muss man eine einmalige Installation vornehmen, danach sollte der Warrior selbstständig arbeiten.

Was tut der Warrior? Er holt sich Archive Team Projekte. Er wird Zeug runterladen und auf zentrale Server hochladen, welche den Content letztendlich ins Internet Archive befördern.

Welche Projekte gibt es? Gerade stehen zur Auswahl (Ändert sich ständig):

  • URLTeam 2 („URL shorteners are a ticking timebomb.“) (Hier werden die Ziele von Shortlinks archiviert)
  • Yahoo! Answers (Service wird in Kürze eingestellt) (Yahoo schaltet dauernd irgendwas ab, zuletzt Yahoo Groups)
  • Webs
  • Periscope
  • Reddit
  • URLs („URLs from various sources“)
  • GitHub
  • MediaFire
  • Google Sites (Es gibt eine neue Google Sites Version und die alten Sites stehen evtl. unter Löschgefahr)
  • Pastebin („Archive all Pastebin pastes“)

So, wie betreibt man nun einen Warrior? Am besten per Docker. Läuft auf sämtlichen Betriebssystemen. Hier ist die Anleitung. Anschließend die Weboberfläche auf Port 8001 aufrufen, Nickname angeben (Erscheint auf Leaderboards) und bei „Available Projects“ am besten das Projekt „ArchiveTeam’s Choice“ starten.

Wichtig: Darf nur mit einem sauberen Internetzugang eingesetzt werden! Keine Proxys, keine VPNs, kein Tor, keine staatliche Zensur, keine komischen DNS-Server oder DNS-Server von ISPs, die bei nicht erreichbaren Seiten automatische Weiterleitungen auslösen.

Warum gibt es überhaupt den Warrior? Warum archiviert das Archive Team nicht einfach alles selbst mit eigenen Servern? Zum einen lässt sich über die Schwarmleistung mehr erreichen und Rate-Limiting kann umgangen werden. Wenn eine IP-Adresse tonnenweise Requests sendet, wird sie wahrscheinlich vom Server limitiert. Das ist bei einer normalen Requestmenge je Warrior nicht so.