Forum Clubic

[?] wget récursif mais pas tout - juste sur certaine url

Bonsoir,

Dans cet article il présente le wget :
http://www.framasoft.net/article1871.html

il donne la commande wget -rkpE http://www.framasoft.net/
donc je précise que ce post n’a rien d’illégal je souhaiterai seulement faire un backup uniquement des articles de framasoft c’est à dire uniquement les url qui contiennent la chaine de caractere : “article”

naïvement (?) j’ai fait un :

wget -rkpE http://www.framasoft.net/ | grep article

mais cette commande me donne le même résultat sans le grep

il y a t’il une solution à cette enigme ?

PS: j’avais pensé a faire un sript avec un lynx -dump … et un wget des résultats mais j’aurais aimé le faire plus simplement sans script.Qu’il télécharge juste ce que je veux et pas tous le site.

merci d’avance

Cdlt,

voila la solution en fait

wget -rkpE http://www.framasoft.net/ -A articles

Si j’ai bien compris, avec un wget -rkpE http://www.framasoft.net/ on peut repomper tout le contenu de framasoft ?

Pourquoi ça ne marche pas sur mon ftp perso par exemple, en toto.free.fr ? J’arrive à récupérer seulement l’index.html.

Ben la seule fois où j’ai utilisé un aspirateur de sites c’est sous win$. C’était WinHTTrack et j’ai eu quelques problèmes au début parce que je n’avais pas précisé qu’il fallait aspirer les liens vers d’autres sites. Donc comme le site que je voulais aspirer était essentiellement un miroir vers un autre ça plantait.

Là, si tu ne reçois que le index.html c’est louche :heink: … Peut-être que … Non vraiment je vois pas. il y a peut-être un indice dans le manuel ?

Salut,

Wget est un très mauvais outil pour cette usage. Les options Accept/Reject ne servent qu’a savoir si ton fichier sera enregistrer sur le disque dure. Dans touts les cas, tous les fichiers seront télécharger même ceux qui n’ont pas le mot “article” dans leur url pour rechercher les liens à l’intérieur de ceux ci, ils ne seront simplement pas enregistrer sur le disque.
Tu pourras trouver cette info dans la doc :
www.gnu.org…

Utilise un outil comme Offline Explorer pour cette usage.

Salut,

Car par défaut il part de “index.html” et suit tous les liens.

bravo, vous venez de repondre à un topic vieux de 4 ans :super: