Extraire du texte contenu entre deux balises

Bonjour à tous.

Après une heure de recherche infructueuse, je viens vous demander votre aide.
J’aimerais pouvoir extraire facilement du texte contenu entre deux balises précises.

Voici un exemple:

<span style="text-align:left" class="term">Abiurétique</span>
<div class="defn"><b>Biochimie</b>
<span class="trs">Du latin bis [bi-, bis-], deux fois, qui indique la répétition ou la duplication.</span>

Ici, j’aimerais récupérer “Abiurétique”, “Biochimie” et “Du latin bis [bi-, bis-], deux fois, qui indique la répétition ou la duplication.”.
Je voulais donc savoir si quelqu’un connaissait un soft (quelque soit l’OS) qui me permettrait de spécifier deux chaînes de caractère (ici pour “Biochimie” : class=“defn”> et ) d’entre lesquelles le contenu serait extrait et copié dans un fichier texte à part.

Merci d’avance. :jap:
Edité le 28/07/2011 à 11:43

Bonjour,
Pas sur d’avoir bien compris ce que tu voulait ,mais le plus simple est d’ouvrir ta page HTML avec wordpad ou le bloc note
(souris droite/ouvrir avec)
Ensuite tu peux copier/coller comme tu veux

:MDR

Bonjour,

Non c’est gentil mais je veux faire ça dans un fichier .txt qui pèse 15Mo avec environ 20.000 lignes.
Du coup, je cherchais à automatiser la chose…

Mais j’ai trouvé la solution grâce aux commandes linuxéennes SED et PERL.
Elles permettent de manipuler des chaines de caractères.

Je croyais que ce post avait sombré. Je le met donc en résolu.

@+
Edité le 28/07/2011 à 11:44