ISPs verfügen in der Regel über Caching-Server, die Kopien von Websites wie ESPN und CNN aufbewahren. Dies erspart ihnen die Mühe, diese Seiten jedes Mal zu treffen, wenn jemand in ihrem Netzwerk dorthin geht. Dies kann zu erheblichen Einsparungen bei der Anzahl doppelter Anforderungen an externe Websites an den ISP führen. Bots können verrückt werden, wenn sie die interaktiven Teile von Websites erreichen und seltsame Abfragen für die Suche finden. Sie können jede URL mit bestimmten Wörtern ablehnen, um zu verhindern, dass bestimmte Teile der Website heruntergeladen werden. Wahrscheinlich werden Sie nur aufdecken, was Sie hätten entlassen sollen, nachdem wget mindestens einmal fehlschlägt. Für mich hat es zu lange Dateinamen generiert, und das Ganze fror. Während Artikel auf einer Website nette kurze URLs haben, kann eine lange Abfragezeichenfolge in der URL zu langen Dateinamen führen. Der Regex hier ist “basic” POSIX regex, also würde ich nicht über Bord mit den Regeln gehen. Auch ist es etwas schwer, mit Trial & Error zu testen. Ein gotcha ist, dass das Muster /search sogar einem legitimen Artikel mit der URL yoursite.com/search-for-extraterrestrial-life oder ähnlichem entspricht. Wenn es ein Anliegen ist, dann seien Sie genauer.

Für Linux und OS X: Ich schrieb Grab-Site für die Archivierung ganzer Websites zu WARC-Dateien. Diese WARC-Dateien können durchsucht oder extrahiert werden. Mit grab-site können Sie steuern, welche URLs mit regulären Ausdrücken übersprungen werden sollen, und diese können geändert werden, wenn die Durchforstung ausgeführt wird. Es kommt auch mit einem umfangreichen Satz von Standardeinstellungen für das Ignorieren von Junk-URLs. WebCopy untersucht den HTML-Markup einer Website und versucht, alle verknüpften Ressourcen wie andere Seiten, Bilder, Videos, Dateidownloads zu entdecken – alles und alles. Es wird alle diese Ressourcen herunterladen, und weiterhin nach mehr suchen. Auf diese Weise kann WebCopy eine ganze Website “durchforsten” und alles herunterladen, was es sieht, um ein vernünftiges Faksimile der Quell-Website zu erstellen. Nun, da Sie ein gewisses Verständnis dafür haben, wie Sie eine ganze Website herunterladen können, möchten Sie vielleicht wissen, wie Sie mit einem solchen Archiv umgehen. Viele winzige Dateien sind der Tod vieler Systeme, was bedeutet, dass es völlig langsam zu übertragen, Backup oder Virus scannen es, vor allem, wenn Sie es nicht auf einer SSD halten. Wenn Sie das Archiv nicht aktiv durchsuchen möchten, empfehle ich, es zu komprimieren.

Der Hauptgrund ist nicht der Platzbedarf. Wenn sie das Archiv als eine einzelne große Datei oder eine Reihe größerer Dateien haben, ist es leichter zu verwalten. Sie können die RAR Store- oder Fastest Compression-Methode verwenden, um ein Paket schnell zu erstellen. Wenn der Inhalt nicht hauptsächlich Text ist, profitiert er möglicherweise nicht viel von einer zusätzlichen Komprimierung. Das Vorhandensein eines Wiederherstellungsdatensatzes in einem RAR-Archiv (standardmäßig nicht hinzugefügt) hilft bei Hardwarefehlern wie fehlerhaften Sektoren oder anderen Datenbeschädigungen während der Speicherung oder Übertragung.