HELP ! probleme NFS - avis aux specialistes - une fois n'est pas coutume ;)

C’est moi qui pose une question maintenant puisque je sais qu’il y a au moins un specialiste NFS dans la salle…

J’ai 1 serveur NFS qui partage des repertoires sur 6 autres (une 30aine de partages en tout dont 2 ou 3 sont partagés en meme temps sur 2 serveurs differents)

Je dois migrer ces serveurs dans autre un hosting center donc un vpn (a base de cisco) est monte entre les 2 hosting centers. Le vpn est fiable.

Voila mon gros probleme :

Un des partages (le plus important bien sur… et qui partage environ 80000 fichiers) qui est monte sur 2 serveurs differents plante (bloque) sur un serveur mais pas sur l’autre (les autres partages tiennent le coup sans prob). Le serveur de fichiers est dans le nouvel hosting et les serveurs clients sont dans l’ancien.
Pas de log particuliere sur le serveur NFS et sur le client dont le partage plante :


Aug  2 18:06:22 localhost kernel: nfs warning: mount version older than kernel
Aug  2 18:06:32 localhost kernel: nfs warning: mount version older than kernel
Aug  2 18:07:58 localhost last message repeated 10 times
Aug  2 18:08:39 localhost last message repeated 3 times
Aug  2 18:13:31 localhost kernel: nfs: server 192.168.118.96 not responding, still trying
Aug  2 18:13:32 localhost kernel: nfs: server 192.168.118.96 OK
Aug  2 18:14:26 localhost kernel: nfs warning: mount version older than kernel
Aug  2 18:17:08 localhost kernel: nfs: server 192.168.118.96 not responding, still trying
Aug  2 18:17:14 localhost last message repeated 2 times

J’ai du revenir en arriere et stopper ma migration, je suis tres emmerde…

le nouveau serveur a exactement la meme conf (et memes partages) que “l’ancien” serveur de fichier qui est sur le meme reseau que les 6 autres serveurs et qui marche sans aucun prob.
Et bien entendu, tous les trucs de base genre oubli d’installer portmap, erreurs de syntaxes, etc ont ete verifies.

Hier soir j’ai fait des tests pour reproduire le probleme mais je n’ai rien reussi a detecter jusqu’a ce que je fasse une copie de fichier (sur le client) d’un partage sur l’autre… et boum… (d’ou le log ci dessus)
Lorsqu’un partage tombe, tous les processus qui faisaient des trucs dedans freezent et sont impossibles a killer… meme un ls part en vrille…

J’ai un specialiste reseau avec moi qui m’assure que le reseau ou le vpn n’est pas en cause…

Quel noyau tourne sur les clients et sur le serveur ?
Quel système de fichier ?

Je ne comprends pas le problème
Tu as un serveur (nfs) qui partage ses données entre 2 serveurs … clients non ?

Sinon, fais une mise à jour de nfs-utils (nfsd) utils-linux (mount ) : si tu as mis à jour ton noyau, il y a une dépendance entre le code noyau de NFS et celui userland de nfs-utils/utils-linux

Le portmap et le mountd sont bien lancés sur le serveur ?

desole de ne pas avoir donne les infos de base… je suis pire qu’un debutant… :paf:
quand on a la tete dans le guidon, c’est la misere…

C’est du debian sarge (2.6.8) a jour. Et j’ai du XFS.

j’ai 7 serveurs qui causent entre eux.
Un qui fait serveur NFS pour les autres.
Un partage (sur une 30aine en tout) est monte sur 2 web serveurs “clients”. Le montage de ce partage particulier plante sur un webserver et pas l’autre.

je suis a jour.

oui bien sur…
rpcinfo -p me donne de bons resultat sur le serveur nfs lui meme et depuis les clients

Et nfs v3 je suppose?

Donc si je résume :
1/ 1 serveur, 2 clients nfs
2/ les accés concurents plantes.

A priori c’est un bug de nfs côté serveur, ce qui n’est pas surprenant avec un noyau 2.6.8 (nfs en noyau 2.6 n’est pas terrible jusqu’au 2.6.12… )

Si tu peux faire une màj du noyau? Mais le serveur est en prod ?

A tout hazard, t’as jeté un oeil à hosts.allow et hosts.deny dans /etc du serveur ?

oui… :wink:

hum… la ou c’est etonnant est que ca ne plante qu’avec le nouveau serveur (qui est dans un autre hosting relie par un vpn fiable).
“L’ancien” serveur NFS qui est dans le meme reseau que les clients et sur le meme switch marche sans aucun probleme (avec memes partages, memes donnees, memes options, meme os, memes versions)

Le pire etant qu’avec le “nouveau” serveur ca marche pour tous les partages sauf 1 sur 1 client (idem : meme os que le serveur, memes versions)

ouais tous les serveurs sont en prod… (meme le nouveau serveur nfs qui heberge aussi une base de donnees)

oui bien sur :wink:

moi1392 : non la connection se fait bien:

Est ce que tu as beaucoup de traffic entre les réseaux?
Est ce que le vpn est bien enregistré dans le portmap (vu que nfsv3 établi une connection sur un port aléatoire.)
Est cequ’il y a un firewall et est ce que celui ci est relié au portmap ? (La aussi, avec nfsv3 le port est aléatoire, donc le firewall doit être configuré bizarement)

Il y a une première connection au mountd et au portmap sur un port défini, et ensuite une connection à un port aléatoire. Je pense que la connection au mountd se fait, et que la connection au nfsd ne se fait pas. (Firewall, ou problème de changement de réseaux)

Si c’est ça; le remède est … NFSv4 … (C’est un des problèmes résolus par la v4)

Tu as quels ports d’ouverts ? 2049 ?
Tu peux le fixer sinon …

c’est un lien de 20Mb/s pas trop charge (10%)

j’ai force le port de mountd et nfsd. pas de firewall.

j’ai vraiment pas envie de coller des paquets non officiels… deja que mes devs pleurent car je ne leur propose que mysql4.1 :smiley:

Pas de soucis à ce niveau puisque le service utilisé dépend des requêtes du clients. Par contre, pas avec un 2.6.8, tu vas crasher ta machine sinon.

Est ce qu’il y a un forward de port entre les réseaux ?
Si tu fais un coup d’etherreal, je parie que les connections du mountd passent et celle du nfsd partent en echec, il faudrait savoir à cause de quoi.

Tu as des traces ethereal?

je suis en train d’en faire… et les premiers resultats montrent que j’ai des erreurs crc sur les packets… je sens que le gars du reseau va se faire fighter…

Ouaips… Des erreurs CRC en grande quantité, c’est du matériel défectueux …

bon ben je vais aller changer un fichu switch demain a 5H30 de mat’… :grrr:
j’espere que ca va etre termine apres ca et que je pourrai continuer tranquillement…

t’a possibilité de faire un test de transfert en direct (cable croisé) avec le serveur ?
genre a 5h35 :ane:

et ba alors ? c’était quoi ?

je sais toujours pas… on a change le switch mais ca n’a rien fait et j’ai change la carte reseau du serveur de fichier mais idem… :frowning:
d’apres de nouveaux tests, j’en viens a croire que c’est nfs qui a du mal avec ipsec (ou l’inverse ?) mais ca me parait super louche… c’est quand meme bizarre que ca marche parfaitement lorsqu’on fait passer nfs dans un tunnel ssh dans le vpn ipsec.
Bref, de toute facon, j’avais besoin de ca le temps de deplacer physiquement les serveurs d’applis et les frontaux web donc au lieu de migrer en douceur, on va tout deplacer comme des brutes la nuit. Comme ca, plus de soucis…

J’ai malheureusement pas le temps de chercher plus… ca m’ennuie car j’aimerais bien connaitre la raison exacte de ce probleme.

youhou :slight_smile: sympa le problème… et je suppose que le tunnel marche bien avec les autres serveurs …

c’est un cas d’école, faut l’encadrer et l’accrocher derriere ton écran :ane:

si tu trouve un peu de temps pour faire 2/3 tests, essaie de charger le VPN avec un transfert via samba de gros fichiers puis très petits fichiers… tu pourra déjà incriminer ou nfs ou le vpn :slight_smile:

good luck