Problème de réplication - là je suis vraiment bloquée !

Bonjour,

J’ai un énorme soucis et je ne trouve aucune réponse à mon problème de réplication…

J’ai 2 serveurs sous Debian : un maître et un esclave. La réplication marchait très bien jusqu’à ce que la base de données mysql plante.

Maintenant, l’esclave ne veut plus du tout se connecter au maître…

J’ai tout vérifié :

  • j’ai testé le ping du nom de machine du maitre (du cote esclave), il trouve son adresse IP mais le ping ne marche pas.
  • J’ai pingué le nom de machine de l’esclave (du cote maitre) et là tout marche.

J’ai vérifié les fichiers de configuration :
Sur le maitre :

  • server_id = 1
  • port = 3306
    Sur l’esclave :
  • server_id = 2
  • port_master = 3306

L’utilisateur qui a été paramétré à les droits suivant sur le maître : Select_priv, Reload_priv, Super_priv, Repl_slave_priv.
max_questions est à 0
max_updates = 0
max_connections = 0

Mes messages d’erreurs n’apparaissent que sur l’esclave, et les voici :

Quand je fais un PROCESSLIST sur l’esclave :

Quand je fais PROCESSLIST sur le maitre, je ne vois rien en rapport avec la replication.

J’ai même regardé les ports :
Sur l’esclave :

Sur le maitre

Après, j’ai testé les services mysql de 2 façons :
La première : j’ai fait un ps -e

La seconde : en faisant mysqladmin ping

Je ne vois absolument pas comment regler ce problème, et mon patron va finir par m’en vouloir :eek:

SVP si quelqu’un a une idée ca serait génial !!! Moi en tout cas j’en ai plus…

Que te racontes les logs systèmes ? daemon.log par exemple où tout fichier mis à jour lors de ta requête ?

Tu indiques que tu as des problèmes de ping du maitre côté escalve, as tu cherché à savoir pourquoi ? (Firewall, QoS, …)

De façon générale, si çà marchait avant ne cherche pas trop question config, sauf si tes outils n’avaient pas redémarrés depuis longtemps, cherches plutôt dans ce qui s’est passé, ce qui a changé et qui fait que çà ne marche plus.

Le message d’erreur que j’ai fourni c’est daemon.log…
Je sais ce qui c’est passé : la base de données à planté suite à une trop grosse quantité de log (ça serait trop long à expliquer le reste…)

J’ai regardé dans IPtables pour le firewall, et rien à signaler… j’ai fait de l’ecoute de port, j’ai vérifié que ça fonctionnait avec “netstat” et dernierement, j’ai fait une analyse du réseau avec tcpdump… Et maintenant, je sais que le dialogue entre le maitre et l’esclave ne fonctionne pas (du moins en partie, et justement la partie qui m’interresse)… Il n’y a pas d’obstacle de style : pas les droits, etc.

Donc, je cherche encore :confused:

il semblerait que ce soit ton maitre qui déconne
tu peut pas faire une sorte de retour en arrière tu doit avoir un fichier de config qui est abimé ou un truc du genre ( pas de ping j avais déjà eu cette erreur c était un problème dans firestarter (iptable)) mais je sais plus comment je l ai résolu désolé la

si ton maitre a plante, tu as peut etre un log binaire corrompu qui empeche la synchro… par contre je ne sais pas quoi faire dans ce cas…
repartir sur des bases saines avec un dump du maitre et relancer la synchro avec les logs binaires produit a partir de la ?

Juste pour savoir c’est quoi un dump du maitre ?

Sinon pour les logs binaires, au début je pensais que c’était ça, donc tant pis je les ai supprimé, et j’ai relancé la réplication. mais ça n’a rien changé.

J’ai regardé iptables, mais il est même pas lancé sur mon serveur, et de toute façon j’ai regardé ce qu’il y était écrit, et rien ne peut bloquer l’esclave…

Par contre, hier j’ai testé le tcpdump, et là j’ai eu une surprise :
Quand je l’ai fait sur le maitre vers l’esclave, j’ai remarqué que absolument rien ne transitait. Par contre, du maitre vers l’esclave, il y avait bien une activité…

Donc, il faut que je cherche d’où ça vient…

Nouveau tests :

J’ai fait un telnet maitre 3306 sur l’esclave : TIME OUT
Pareil sur le maitre : telnet esclave 3306 : TIME OUT

ben tu prends tout le contenu du maitre et tu l’integres sur l’esclave…

j’espere que t’as fait une sauvegarde de tes logs binaires avant de les supprimer… ca peut etre utile

J’ai déjà fait un dump du maitre dans ce cas là :wink: mais ça ne change rien !
Sinon j’ai bien fait une sauvegarde des mes logs binaires…