Forum Clubic

Flux rss en .txt

Bonjour à tous !

Dans le cadre d’un projet de recherche j’étudie les sites d’information.
Je souhaiterais recevoir les flux rss de ces derniers puis les transformer en .txt pour pouvoir ensuite les analyser. Par exemple les flux du Monde.fr, de Liberation.fr etc… durant une période importante.
Il me faudrait les sauvegarder dans un format .txt

J’aimerais savoir si cette méthode est possible et si oui comment procéder.
Hélas je ne m’y connais pas en programmation.

Merci d’avance pour votre aide.

En pseudo-algorithme ça donne :

- Récupérer document RSS depuis l'URL donnée
- Sauvegarder dans un fichier nommé "Blablabla_DateHeure.txt"

L’outil wget devrait pouvoir te faire tout ça.
Edité le 08/12/2008 à 00:00

Comme un petit exemple vaut mieux qu’un long discours !

wget -qO - http://www.techno-science.net/include/news.xml >> “mon-fichier.txt”

La ligne de commande ci dessus enverra le contenu du flux XML dans le fichier texte “mon-fichier.txt”

Ensuite tu pourra parser le fichier avec divers utilitaires (awk, etc.) !
Edité le 08/12/2008 à 11:19

Pourquoi ne pas utiliser saxon + xslt? Tu renverrais au format texte ton flux RSS, avec des transformations se basant sur les tag XML.

Mieux vaut apprendre par soi-même :slight_smile:

C’est vrai tu as entièrement raison . Mais c’était trop tentant j’ai craqué :frowning: !

Merci à tous pour votre aide !

Je vais maintenant essayer de mettre vos conseils en pratique.