Internet V/S Minitel 2.0, une hypothétique solution à google

vida18_1_1 · Mai 8, 2008, 11:45

Après avoir visionner cette vidéo : Internet libre ou Web 2.0 (Attention, plus d’1h, pour les plus pressés je ferais un résumé en fin de post, allez directement à la citation, vous pourrez toujours revenir plus tard), j’ai décidé de chercher des solutions aux problèmes évoqués. Le premier problème qui m’a parut relativement facile à résoudre dans un temps relativement court, c’est celui de google (voir la vidéo ou lire le résumé) : L’idée c’est de faire un moteur de recherche qui ne soit pas un site internet mais un logiciel, à la façon de copernic sous windows, si ce n’est que ce moteur de recherche n’utiliserait pas d’autres moteurs de recherche, il serait indépendant. Pourquoi tous ces “relativement” ? Et bien parce que j’ai des idées mais pas assez de connaissances (je le déplore) pour réaliser ce dont je parle, bref, je suis une bille en programmation et il faut que j’aille sur le site du zero pour me souvenir comment mettre une image dans une page html…c’est pas gagné. Je vous expose le principe de fonctionnement que j’avais à l’idée et je vous propose de me donner votre avis sur le côté réalisable de la chose et pourquoi pas votre aide, qui sera toujours la bienvenue.Voici le cahier de charge du moteur de recherche (appelons-le MDR (moteur de recherche, pas mort de rire)^ ^)

Points rincipaux :
1 - Il doit être sous forme logicielle et pas sous forme de site, pour pouvoir fonctionner indépendamment de toute coupure d’électricité ou piratage.
2 - Il ne doit dépendre que de lui même et d’aucune machine “centrale”, si on pirate un pc, MDR doit continuer de fonctionner sur tous les autres.
3 - Il doit rivaliser avec google, tous les sites que vous trouvez avec google doivent pouvoir être trouvés avec MDR, sans que celui-ci ne s’appuie sur google ou un autre moteur de recherche.
4 - Il doit tourner sur tous les principaux OS (Linux, Windows, Mac dans un premier temps).
5 - Il doit être léger et tourner sur les plus vieux PC.

Points secondaires :
A - Il doit posséder une interface graphique pour être facilement utilisable par quelqu’un qui ne sait même pas ce qu’est la ligne de commande (ma grand mère doit pouvoir s’en sortir).
B - Il doit posséder des options de filtrage (mais aucun filtre par défaut) pour, par exemple, ne pas avoir une recherche polluée par des skyblogs, (je vous jure que sur google c’est très énervant d’avoir 11millions de réponses dont 6 millions de skyblogs de midinettes).
C - il doit pouvoir effectuer des recherches de vidéos (pas uniquement les vidéos en flash type youtube, mais aussi les vidéos téléchargeables par ftp par exemple), d’images, de documents (PDF, .doc, .odt, etc…) et enfin, d’autres fichiers (quels qu’il soient).

Voilà pour le moment, si vous avez d’autres idées, n’hésitez pas.
En attendant, voici une liste des “solutions” que j’ai peut-être trouvé pour répondre à quelques points du cahier des charges :
Points numéro 1, 2 et 3 :
MDR fonctionnerait selon un principe de partage :
Un fichier “F” serait généré par MDR, contenant une liste de mots clefs et les sites qui leurs sont associés, à chaque fois que l’on effectuerait une recherche, MDR commencerait par chercher dans ce fichier “F” puis il chercherait sur le net, (comme google ou yahoo), et enfin, il se connecterait aux autres instances de MDR en cour à travers le monde afin d’explorer leurs fichier “F”, ces deux dernières étapes permettant de mettre à jour les fichiers “F”.
Ainsi, si une bombe explose sur un PC, les autres peuvent continuer leur recherche (si il y a une bombe chez google, tout le savoir de l’humanité est perdu à tout jamais…ou du moins tout devra être refait depuis les débuts de google).

Point numéro 4 et 5 :
Je ne préconise pas le Java, qui est très lourd, le Python me semble plus léger mais je n’y connais vraiment rien, je n’ai donc pas vraiment de solution à ces points.

Point A : Pour le design, je peux m’en charger, mais pour véritablement créer une interface graphique, je ne sais pas faire (gimp je maîtrise mais c’est tout).
Point B et C : là je n’ai vraiment pas les compétences.

Voilà, vous en savez un peu plus, j’attends vos avis, critiques et idées.

Maintenant un petit résumé de ce qui se dit dans la vidéo :

Internet vire au minitel :
Internet et les logiciels libres sont apparut en même temps, et sont intrinsèquement liés : si les protocoles d’internet n’avaient pas étés libres, il ne se serait jamais développé, et si internet n’existait pas, impossible de diffuser un logiciel libre ou de le développer (pas de sourceforge, etc…).
A la base, tous les réseaux à part internet, sont des réseaux centrés : un gros ordinateur “intelligent” qui gère tout et des petits terminaux “débiles” qui s’y connectent, ça c’est par exemple, le minitel.
Internet est différent, chaque ordinateur est à la fois serveur et client, ainsi, si on supprime les états unis, internet fonctionne toujours.
Cependant, les 90% de ce que l’utilisateur Lambda fait sur internet, est faisable sur du minitel.
Par exemple, l’outil le plus utilisé : Google (je prends cet exemple car c’est de moteur de recherche dont je parle dans mon post).
Pour citer Benjamin Bayart, google c’est 8000 machines, qui contiennent tout le savoir de l’humanité, et des millions de petits terminaux “débiles” qui s’y connectent, je sais pas comment vous appelez ça vous, mais pour moi, c’est du minitel, il l’ont fait en plus grand, en plus beau, en couleur, mais fondamentalement, c’est pareil, on est dépendants, nos recherches peuvent être (et sont) filtrées.
Et pour résumer c’est pareil avec tout : Dailymotion, youtube, ce sont des serveurs qui contiennent toutes les vidéos et nos terminaux débiles viennent encore s’y connecter.
Pour conclure : hébergez-vous vous même, devenez indépendants, reprenez le contrôle d’internet, libérez internet, sinon, il va mourir, et les logiciels libres avec.

Voilà un bref résumé (qui ne contient qu’une infime partie) de la conférence de Benjamin Bayart aux 8èmes rencontres mondiales du logiciel libre. C’est loin d’être exhaustif.
Edité le 22/10/2009 à 11:14

spanda50 · Juin 11, 2008, 10:00

Ouaa !!

C’est vraiment un truc de fou ton idée. Sais tu que Google c’est au moins 300 personnes ultra connaisseur en programmation qui s’occupe de l’algorithme de Google ? Puis Rome ne s’est pas fait en 1 jour ! Je sais pas si tu imagines le boulot titanesque qu’il faut faire pour ton projet.

“Il doit être léger et tourner sur les plus vieux PC” : Pour moi ce point là est déjà impossible car le web comprend plusieurs milliards de données. Si Google utilise 8000 machines c’est pas pour rien !

Ensuite, “Il doit rivaliser avec google, tous les sites que vous trouvez avec Google doivent pouvoir être trouvés avec MDR, sans que celui-ci ne s’appuie sur Google ou un autre moteur de recherche.” : C’est impossible de rivaliser Google surtout qu’en on part de rien !

Enfin bref, je vais pas refaire tout ton topic, mais tu l’auras compris, c’est un projet certes intéressant mais irréalisable selon moi à moins que tu es envie de passer t’es 150 prochaines années à le coder lol
Edité le 11/06/2008 à 22:07

vida18_1_1 · Juin 12, 2008, 11:17

En fait, si je lance un tel projet c’est parce que l’idée me parait bonne mais les compétences me manquent.
Je vais donc me massacrer le cerveau et tenter de chercher quel est le meilleur langage de programmation et apprendre ce langage du mieux que je pourrais (après tout, je lance un projet, la moindre des choses est d’y participer un minimum).
Pour ce qui est du fichier F j’avoue n’avoir aucune idée de ce que ça pourrait donner, et j’ai jamais pigé le principe de base de donnée…

Pour ce qui est de la pertinence on pourrait faire en sorte que le logiciel soit évolutif : à chaque recherche, il demanderait si les résultats sont pertinents, et changerait sa façon de trier en fonction des réponses, cela pourrait peut-être même dépasser la pertinence de google étant donné que la pertinence des résultats serait dépendante de l’opinion de l’utilisateur, le logiciel aurait disons…la même vision de la pertinence que son utilisateur.

Pour en revenir au fichier F (ou base de donnée), il ne ferait que contenir les adresses des sites et les mots clefs qui leurs sont associés, et MDR ne ferait que lire ce fichier, on pourrait donc théoriquement rajouter des mots clefs pour se trouver en meilleur position, pour palier à cela il faudrait intégrer un système de comparatif, MDR comparerait les fichiers F qu’il trouverait, ainsi, si un seul d’entre eux contient le mot clef “bidule” pour le site “www.machin.com”, ce mot clef serait considéré comme une erreur, en revanche, si suffisamment de fichiers F contiennent le mot clef “bidule” pour le site “www.machin.com” alors ce mot clef serait retenu. De plus, si on ajoute à cela la possibilité de juger de la pertinence des résultats, alors même si un site parvient à se frayer un chemin pour arriver en tête de toutes les requêtes, il sera vite dégagé car non pertinent.

Pour l’interface, je pensais aussi que le programme pourrait utiliser un système en ligne de commande et un frontend en plus pour ceux qui préfèrent, mais je me pose des question quant-à la portabilité d’un système backend/frontend sur d’autres plateformes…
Pour ce qui est du protocole, le P2P est ce qui me semble offrir le plus de possibilité et de facilité, reste à savoir lequel utiliser (torrent, gnutella, ou autre ?), mais je n’y connais rien, je dis peut-être des conneries.

Je me penche sur le langage à utiliser.

Termos · Juin 12, 2008, 1:58

Certes. Mais imagine ce qu’on a dit à Linus Torvalds quand il a lancé son idée d’OS ?
S’il trouve des gens motivés, pourquoi pas.

L’idée d’un moteur de recherche décentralisé est séduisante. La recherche d’un site se ferait comme une recherche de fichiers sous n’importe quel outil de P2P. Il resterait à se pencher sur la question de la pertinence des recherches. Et là, désolé, vida18 mais il faudrait l’avis de spécialiste dans le domaine. Pour être efficace, ça ne s’invente pas comme ça. Mais ces spécialistes existent. Alors bonne chance !
Edité le 12/06/2008 à 13:58

vida18_1_1 · Juin 12, 2008, 2:53

Oui mais à la base Google c’est deux étudiants. Là tu parles de google 10 ans après.

Justement, au boulot !

C’est l’intérêt du décentralisé : répartir une tache sur plusieurs machines. Donc potentiellement autant de machines que d’utilisateurs. (ce qui pour le moment est effectivement égal à 0;)).

Là effectivement c’est pas le résultat qu’on va obtenir rapidement.

Merci pour ton avis :D.

A priori toutes les compétences, même minimes, sont les bienvenues, donc n'hésitez pas à vous y inscrire !

Pour s’inscrire, envoyez un mail à mdr@deepthought.zapto.org ou passez par l’interface web

gannher · Septembre 21, 2009, 4:17

Je trouve cetet idée complètement irréalisable, il suffit de lire ce que demande l’auteur du post pour savoir qu’il n’y connait pas grand chose (d’ailleurs il le reconnait).

D’après wikipédia, Google aurait recensé 1000 milliards de pages webs.

Partons du principe qu’une adresse web fait 1 octect (ce qui est bien évidemment faux, c’est juste pour que se soit plus simple) alors Google doit stocker 1 000 000 000 000 000 octets

Grossièrement, ça donne:

1000 TO!! Tu veux stocker ça sur un ordinateur personnel ? Et encore là, mon exemple est très loin de la réalité car les adresses webs prennent bien plus qu’un octet.

Tu dis aussi qu’à la base, Google ce n’est que deux étudiants. As tu vu leurs parcours ?

Larry Page a obtenu un Bachelor of Science en ingénierie et en informatique, avec mention, à l’Université du Michigan. Il est également titulaire d’un master en informatique de l’Université Stanford dans la Silicon Valley en Californie et d’un MBA honoris causa de l’Instituto de Empresa à Madrid.
Larry Page commença une thèse à l’Université Stanford sous la direction de Terry Winograd. C’est à Stanford que Larry Page et Sergey Brin (qui avait commencé une thèse lui aussi) se rencontrent et que commencera l’aventure Google. Larry Page est l’inventeur du procédé PageRank : le classement des pages Web en fonction de leur popularité.
En 2002, le Forum économique mondial lui décerne le titre de “Leader international de l’économie du futur” et en 2004, il reçoit le prix Marconi.

Voila donc ceux sont des chercheurs.
Et ils ont réuni 1 millions de dollars avant de se lancer vraiment dans l’aventure.

Et honnêtement, si quelqu’un ici avait les compétences nécessaires, je ne pense pas qu’il les partagerait avec toi, tout simplement parce que tu n’as pas les compétences et que tu ne pourrais rien apporter au projet.
Je pense que tous les utilisateurs de clubic (y compris moi bien sur) serait incapable de pondre un algorithme de recherche égalant celui de Google.

Le PC n’est pas un serveur. Sans compter la bande passante nécessaire …

Les projets qui utilisent les PC sont plutôt les projets nécessitant une grosse capacité de calcul. Je pense notamment au World Wommunity Grid ( www.worldcommunitygrid.org… ). Ils se servent de la puissance du processeur des PC qui est pratiquement jamais utilisés à fond pour leurs calculs. Le logiciel envoie ensuite le résultat sur un serveur. Mais le programme en lui même ne stocke pratiquement rien sur le PC de l’utilisateur, il ne fait qu’utiliser la puissance de la machine. De plus la bande passante utilisée est très faible et peu souvent sollicité.

Bref pour moi, ton projet est plutot une gentille blague et ne verra jamais le jour. Je préfère te faire déchanter car tu n’as pas l’air de saisir l’ampleur de la tache de ce que tu demandes.

Il y aura toujours des serveurs, internet n’est au final qu’une histoire de client-serveur. Les projets open-source ne disparaitront pas à cause de ça…
Edité le 21/09/2009 à 16:19

Sans-Nom · Septembre 21, 2009, 5:05

En même temps le topic date de mai 2008.

Et sans avoir tout lu, c’est certainement possible - même si hypercomplexe -, si tu pose le postulat d’un moteur de recherche décentralisé. Tu n’as pas forcément besoin de tout indexer ou d’avoir tout sur ton poste, et de ce fait c’est toutes les machines du réseau qui servent de moteur. Dans ce cas, tu ne fais qu’avoir un sous ensemble et éventuellement tu va demander à d’autres.

gannher · Septembre 22, 2009, 10:02

Ah ouais j’avais pas vu la date. J’ai cliqué sur le lien que mettait clubic à gauche sur une news -_-’ . Je pensais qu’ils faisaient un tri sur la date mais non .

Et le temps de réponse lors de la recherche ? Parce que si on doit consulter plusieurs centaines d’ordinateurs pour obtenir une réponse, il va falloir plusieurs secondes (voire un possible timeout) avant d’avoir une réponse. Surtout que là, on parle d’ordinateur de particulier, ceux ne sont pas des foudres de guerres, ils n’ont rien à voir avec la puissance des serveurs d’un moteur de recherche digne de ce nom.

Sans-Nom · Septembre 22, 2009, 10:23

Bah c’est pas comme ça que fonctionne emule ou edonkey ?

vitamin1981 · Septembre 22, 2009, 2:52

C’est justement la base de toutes la performance des gros systèmes distribués : google, cloud, p2p …

gannher · Septembre 25, 2009, 2:27

Certes et on voit combien ça leur coute. Google possède le plus grand parc de serveurs et le cout d’entretiens est énorme.

Google avait réussi à lever plusieurs centaines de milliers de dollards avant de réellement se lancer.

Je persiste à dire qu’un projet comme celui là avec quelqu’un qui n’y connait pas grand chose restera seulement à l’étape de rêve^^

vitamin1981 · Septembre 28, 2009, 9:51

Evidement. Mais d’après toi, qu’est ce qui coute le plus cher ?

acquérir puis entretenir une dizaine de machines simples
acquérir puis entretenir une machine de guerre