Posted by on Jun 22, 2020 in Uncategorized |

Dies ist nur mit wget, schauen Sie einfach nach, wie man wget zu verwenden. Es gibt tonnenweise Beispiele online. Sie können wget als Hintergrundbefehl ausführen lassen, so dass Sie ihre Arbeit im Terminalfenster erledigen können, während die Dateien heruntergeladen werden. Verwenden Sie den folgenden Befehl: Hier sind einige Nutzungsbeispiele, um eine ganze Website herunterzuladen: konvertieren Sie Links für die lokale Anzeige: wget –mirror –convert-links –page-requisites —-no-parent -P /path/to/download/to example-domain.com Wenn Sie diesen Befehl ausführen, teilt wget Ihnen mit, wo ein Downloadprotokoll gespeichert wird. Diese Datei heißt in der Regel wget-log, wget-log.1 oder ähnlich: Bisher beziehen sich die Beispiele, die wir gesehen haben, auf das Herunterladen öffentlich verfügbarer Dateien. Es gibt jedoch Zeiten, in denen Sie Dateien von einer login-geschützten Seite herunterladen müssen. In diesen Situationen können Sie eine Browser-Erweiterung wie CurlWget (Chrome) oder cliget (Firefox) verwenden. Wenn Sie versuchen, eine Datei herunterzuladen, generieren diese Erweiterungen einen vollständigen wget-Befehl, mit dem Sie die Datei herunterladen können. In diesem Artikel werden wir nur CurlWget diskutieren, obwohl cliget in ähnlicher Weise funktioniert. HTTP-Clients (z. B. Browser und Tools wie wget) senden eine “User-Agent-Zeichenfolge” als Teil von HTTP-Headern, die den Client identifizieren.

Viele Webmaster blockieren wget, indem sie ihren Server so konfigurieren, dass Anforderungen blockiert werden, die “wget” in dieser Zeichenfolge enthalten. Um dies zu umgehen, können Sie die Benutzer-Agent-Zeichenfolge von wget mit einer benutzerdefinierten überschreiben. wie die von Ihrem Browser verwendete. Um den Benutzer-Agent Ihres Browsers zu finden, gehen Sie zu einer Website wie echo.opera.com. Kopieren Sie den Benutzer-Agent von der Seite, und führen Sie wget mit dem Schalter -U aus: wget ist in der Lage, das zu tun, was Sie fragen. Versuchen Sie es einfach mit dem Folgenden: Als Nächstes haben wir das Netzwerktimeout mit dem –timeout-Schalter auf 10 Sekunden festgelegt. Falls wget nicht mehr als 10 Sekunden lang vom Server zurückhört, wird davon ausgegangen, dass die Verbindung ausfällt. Auf diese Weise können Sie Netzwerkanforderungen zum Abrufen der Datei erneut ausstellen. Klicken Sie auf die Option Kopieren, um zu wget, öffnen Sie ein Terminalfenster, klicken Sie dann mit der rechten Maustaste, und wählen Sie Einfügen aus. Der entsprechende befehl wget wird in das Fenster eingefügt.

Dies wird alle Dateien von Wikipedia herunterladen (bis zu 5 Ebenen), aber alle Dateien entfernen, die nicht in den Erweiterungen png, jpg oder jpg enden.