[ALGORITHMIQUE] Comment parcourir le net ? - Si vous répondez, je détrone Google !

revlam78 · Avril 12, 2006, 2:39

Bonjour,

Je m’interesse de plus en plus a la théorie afin de développer un moteur de recherche internet (pas interne)… Quoi je ne veux pas en développer un lol mais juste comprendre le fonctionnement ! Ma plus grande question serait de savoir comment un moteur comme google référence les sites ? Est ce un bot qui parcours tous les sites ? Si oui comment est ce possible ? Sinon est que du referencement manual ? Ca serai un peu lourd comme traitement…

Voila une reflection si ca vous interesse et si vous êtes plus calé que moi je suis preneur pour obtenir des réponse…

Bonne journée !

KisSCoOl · Avril 12, 2006, 3:09

http://www.webrankinfo.com/google/

bonne lecture :jap:

KarLKoX_1_1 · Avril 12, 2006, 3:15

Je ne connais pas leur algo et pour cause, il faudrait passer un mur de 10 cm d’épaisseur, flinger 20 agents de sécurité pour arriver dans une pièce fermée qui utilise un système de reconaissance rétinient pour pouvoir entrer dedans et la se trouve le fameux précieux … enfermé 100 m sous terre :paf:
Mais bon, je pense qu’utiliser un arbre binaire permettrait d’avoir quelque chose d’assez performant pour un début, le plus dur étant de référencer tous les sites allant du plus généraliste au plus précis.
En gros : plusieurs noeud généraux (A,B,C,D …N) consitués eux même de sous noeuds (A1,A2 … N1,N2) qui eux même en sous noeuds … etc etc.
Juste une idée comme ça hein

Startide · Avril 12, 2006, 3:15

Le référencement en soit ne doit pas être la partie la plus complexe, c’est l’organisation des réponses en fonction de la pertinence estimée de la page qui doit être le pire à gérer…

google a des bots qui effectivement se balladent de liens en liens, et sauvent les pages sur leurs serveurs…

Par contre je proteste contre le sous titre du topic qui est mensonger !!

revlam78 · Avril 12, 2006, 3:21

lol pour le sous titre

Hum j’ai lu l’article que tu as posté KisSCoOl il est très interessant ! J’avais aussi trouvé l’API Google qui est en version BETA qui permet de faire des chose sympatique…

KarLKoX, j’ai du mal a saisir ton raisonement Bon jusqu’au gardes du corp a buter je suis d’accord mais apres tes histoires de noeuds c’est pas très clair pour moi !

Moi je pensai à ecrire un script qui parse des pages, en retire tous les les liens et les classes. Le classement ne me semble pas le plus dur, déjà j’ai du mal a capter la strucutre du bot qui serait charger de parcourir le net ! Le chanceux, il va en voir des sites :heink:

Si ca vous interesse, continuons cette discution !

KisSCoOl · Avril 12, 2006, 4:31

perso, je bosse sur un moteur de recherche, mais vu que c’est assez innovant, pour l’instant je garde ça secret :oui: …

mais en gros le principe est le même que pour google news :
1/on spide des sites
2/ on récup les infos dont l’on a besoin
3/ on classe tout ça selon des rêgles établies dans une BD
4/ on fait des recherches dans cette DB

je me suis pas encore attaquer au plus dur, la présentation des résultats sous une forme pertinente

revlam78 · Avril 12, 2006, 4:33

Oh d’accord !

Bien je souhaitais lancer ce type de projet mais j’avais peur que ma méthodologie soit trop bourrine mais apparement c’est comme ca qu’il faut faire ! Tu cherche pas un developper ??? :love:

KisSCoOl · Avril 12, 2006, 4:38

nop, mais je ne sais pas encore quoi faire du projet une fois finis …

à la base, c’est un projet de pur recherche pour un pote qui souhaiterait que je lui fasse son moteur … donc vu que je suis doué pour estimer mes temps de développement, je fais tout avant de lui dire combien de temps ça me prendrait :paf: …

mais son truc m’intéresse aussi pour ma culture personnelle …

si ça marche bien, bah j’ai deux options : lui vendre le truc (ce qui était le “deal” de base), ou faire la p*** et le balancer en opensource :o …
mais c pas très loyal :sarcastic: …

ou alors faire un truc moit / moit … genre balancer l’essentiel en opensource, et lui laisser les trucs spécifiques à son projet …

mais là, j’ai déjà le projet de sudoku pour cluclu à finir, donc :paf:

revlam78 · Avril 12, 2006, 4:42

ah d’accord !

Bah de mon coté on c’est associé avec un admin reseau pour developper un moteur de recherche aussi… Pour le moment on a un un programme qui est chargé de parsé le web developpé en C++ mais le traitement est assez lourd (d’ou mon post sur le forum :)) ! On enregistre le tout dans un bdd oracle et pour le moment le trie n’est pas encore opérationnel, on stock les sites en vrac et bast !

Et la je travail sur un algo qui permettrai de trier tt ca de maniere plus optimisé lol Donc la je bloque quand même sur la lourdeur du traitement du Bot en C++ ! Tu as été confronté a ce pb de ton coté ? (sans rentré dans les details)

KisSCoOl · Avril 12, 2006, 4:49

non, car vu que y’a pas bcp de site à spider, j’ai fait ça en PHP à la warrior

revlam78 · Avril 12, 2006, 4:51

Ah ! Bah tu as raison… Nous on vise de parser tous les sites de moins de 6 caractere de type www.123456.com dc extension .com et en www… donc ca fait bcp de site ! Et ton bot reference bcp de sites en 1 jrnée ?

Sans-Nom · Avril 12, 2006, 4:52

Tu as Lucene en jsp qui est opensource, et qui en fait tourne même autrement qu’en jsp.

http://lucene.apache.org/

KisSCoOl · Avril 12, 2006, 4:53

comme je t’ai dit, on est plus proche de googleNews que de google … c’est à dire que le bot n’analyse que certaines pages de certains sites ciblés (actuellement, une dizaine, et ça ne devrait pas trop bouger) :jap: …

revlam78 · Avril 12, 2006, 4:54

Il me dit qu’il ny a pas de realese de ce soft --> http://incubator.apache.org/lucene4c/

EDIT : Excuse j’ai regardé trop vite http://www.apache.org/dyn/closer.cgi/lucene/java/

EDIT 2 : Bah pour lucene j’ai regardé rapidment c’est pas trop ce que je veux… j’ai déjà mon code donc je n’es pas besoin d’une API, je voudrais plutot trouver un script ou un algo déjà fait pour pouvoir étudier les optimisation a apporter a mon code afin que le pc sur lekel tourne le bot ne soit pas saturé au bout de 10mn

KarLKoX_1_1 · Avril 12, 2006, 6:22

Je suis pas du tout orienté web, j’ai donc parlé algo (peut importe le langage), je fait peut être fausse route :neutre: mais l’idée c’est de trier les données dans une structure de donnée appelé arbre binaire, ici arbre binaire de recherche équilibrée, c’est une méthode éprouvée et efficace.
Mais tu as raison, je n’ai pas pensé/parlé du parser en lui même et la, le pagerank de google me semble être une bonne piste.

revlam78 · Avril 12, 2006, 6:36

Oui je suis plongé dans l’api google C’est glok lol ! Mais merci pour ton lien je vais lire cela attentivement !

Sinon pour la lourdeur du traitement de mon Bot, apparement cela serait normal vu le traitement imposé apr le bestiaux et surtout l’interfacage avec oracle qui semble t-il soit lourd… En même temps je me voyais mal faire ca en PHPO/MySQL ! Y des warriors sur ce forum mais j’en fais pas partis Il est vrai que mon pauvre p3 700Mhz qui heberge ce Bor fait pitié

Par contre, petite question en rapport (Mr les modo arretez moi si je suis HS) ! Existe t’il des sites qui bloquerais par un mécanisme X ou Y la progression de ce genre de Bot ? Ou le bot est il pris pour un internaute ordinaire ?

Startide · Avril 12, 2006, 6:53

J’avais un article d’universitaire sur le page rank de google, et les itérations récursives qui conduisaient à son calcul…

sachant que le PR de chaque page dépend du PR des pages qui pointent vers celle ci, mais dont le propre PR dépend potentiellement du PR de notre page qui dépend de celles qui…

Bref

revlam78 · Avril 12, 2006, 7:07

Startide, j’ai une question ? Tu m’en veux pas si j’ai pas suivi ? Tu as l’air bcp plus calé que moi :ane:

revlam78 · Avril 12, 2006, 8:36

Cest la base effectivement ! Pr le moment j’en suis au “parsage” des META et des liens des pages… ttes facon il y a tjr moyen de pousser plus loin mais après il faut avoir soit un PC de la NASA soit un code leger

revlam78 · Avril 13, 2006, 2:06

Exact ! Je vais tester ca demain sur un Dualcore pour voir si ca change car le PC a planté la…