Exporter le contenu d'un forum ?

bullesks · Septembre 7, 2015, 5:10

Bonjour à tous,

Je suis nouvelle ici, j’espère que je poste au bon endroit.

Un forum qui me tient vraiment à coeur et dont je suis adhérente va fermer ses portes d’ici peu. Son administratrice et créatrice nous a encouragés à faire des copier-coller pour sauvegarder les info qu’il contient. J’ai commencé mais ça va être titanesque.

Est-ce que quelqu’un connaîtrait un moyen d’exporter simplement les données texte vers un fichier texte ou même un tableur, un peu comme on le ferait pour une base de données ?

Pour info, je suis sous Mac OS, mais si vous connaissez des logiciels sous linux je prends aussi ^^

D’avance merci et bonne fin d’aprèm !

Nostradamus · Septembre 10, 2015, 8:55

Je ne connais pas MAC, mais sous Windows, je ferais un “Enregistrer sous”. Tu as peut-être l’équivalent.

Feunoir · Septembre 10, 2015, 11:00

Il y a des années j’avais fait la même choses sur un site, il y a des outils pour faire cela, on les appelle “aspirateur de site”.

si j’avais à le faire aujourd’hui, une petite recherche m’a mené vers wget www.gnu.org…[/url] ou HTTrack [url=http://www.httrack.com/]www.httrack.com…
a priori wget est deja inclus dans les distributions linux

par contre reste a comprendre comment les utiliser
sur doc.ubuntu-fr.org… tu devrais regarder l’exemple "Télécharger le site récursivement avec une profondeur infinie ( -linf ), convertit les liens pour une consultation en local ( -k ), rapatrie tous les fichiers nécessaires à l’affichage convenable d’une page HTML ( -p ) et renomme toutes les pages HTML avec l’extension .html ( -E ) : "

regarde les autres exemples car perso :

je ferais avant un essai avec la profondeur par defaut (qui est de 5 )
je pense que pour une profondeur infinie il faut peut être se restreindre a un seul domaine

la doc de wget sur www.delafond.org… montre les “Options récursives d’acceptation et de rejet” :

–domains=liste-domaines
Indiques les noms de domaine qui peuvent être suivis. liste-domaines est une liste avec la virgule comme séparateur. Remarquez que ça n’active pas -H.
en gros pour prendre celui de clubic on veux que des domaines qui comprennent (http://www.clubic.com)

–no-parent
Ne pas remonter dans les répertoires parents. C’est une option utile, puisqu’elle garantit que seuls les fichiers en dessous d’une certaine hiérarchie seront téléchargés.
pour eviter de prendre les test/article/autres dans (http://www.clubic.com) et rester dans (http://www.clubic.com/forum)

mais bon le mieux c’est de tester et voir ce que cela donne avec une petite profondeur
(http://www.clubic.com/forum/) -> (http://www.clubic.com/forum/internet-general/) (page1) -> (http://www.clubic.com/forum/internet-general/exporter-le-contenu-d-un-forum-id925759-page1.html) (page1 d’ici)
par exemple pour le forum clubic, avec une profondeur de 3 on arrive ici, mais on aura que les sujets de la page 1 du forum internet general

si ton site cible est assez simple, tu l’auras entier sur ton disque dur si tu mets l’adresse du sommaire du forum
Edité le 10/09/2015 à 11:38