Vous cherchez quelque chose ? C’est bien dommage pour vous…
Lorsque Google a vu le jour, c’était la révolution du monde des moteurs de recherche… utiliser la popularité d’un site pour le mettre en avant. Bien que son algorithme, tout comme ceux de ses confrères ont évolués avec le temps pour s’adapter aux nouvelles techniques de spams, de contenus dupliqués etc… les moteurs sont actuellement débordés de contenus ridicules (sur les 8-15 milliards de pages qu’ils se vantent d’indexer, combien pensez vous valent-elles la peine d’être visité un jour ?).
Il est aujourd’hui très dur de s’adapter aux spammeurs, d’ailleurs des centaines d’ingénieur de par le monde travaille en permanence pour tenter de s’adapter et retravailler les résultats à la main. Mais ce n’est pas très important au final car ce qui compte, c’est que ces moteurs soient archi-populaires, que les entreprises se bousculent au portillon pour placer leurs annonces selon le principe de l’enchère au clic (comme ça les régies sont toujours gagnantes), et au final ce sont ces annonces qui sont les plus pertinentes…
Énormément de gens pensent que le roi du web Google est indétrônable, moi je pense que tout n’est pas perdu. Comment ? En retournant aux sources du web, en changeant radicalement les techniques d’indexation et de classements.
Les spammeurs exploitent des sites (en postant des urls en commentaires sur des blogs, Youtube et autres) pour augmenter de manière titanesque le nombre de liens externes. Mon idée est d’ignorer les affluences externes dans le classement d’un site, seul le contenu peut justifier la présence d’un site dans les résultats.
Ensuite, pour garantir que le résultat vaille la peine, avant même d’entrer dans l’algorithme de classement, il faut revoir les critères d’admissions des sites dans l’index. Actuellement les moteurs de recherche index de tout et de n’importe quoi (je parle pas des .doc, pdf et autres, ça je trouve bien).
Bref, comment faire le tri ? Je pense qu’un vrai site doit être accessible, conforme aux recommandations du W3C. Rien qu’en refusant tout site non conforme via une simple validation, on élimine énormément de résultats (en partant du principe que faire un site conforme aux standards requière l’envie de rendre accessible son contenu). Bien entendu, nombre de sites sont tout à fait pertinents, plus ou moins accessibles mais non conforme, c’est hélas un des points négatifs de mon idée.
L’idée est posée, mais on est si bien partit, pourquoi s’arrêter en si bon chemin ? Alors hop, on ajoute un peu de l’ingrédient qui donne toute sa consistance au web actuellement : le monde du libre et de l’open-source.
- Imaginez un algorithme modulaire que chacun pourrait renforcer ou adapter ou reprendre pour un autre projet.
- Imaginez un robot d’indexation dont chaque classe est disponible pour les intégrer dans un robot d’un tout autre goût. (par exemple celle de l’analyse du robots.txt)
- Imaginez des API facilement utilisable pour créer des outils de recherche à intégrer dans divers outils.
- Imaginez une base de donnée pertinente librement accessible en lecture
Bien entendu, tout ceci serait purement bénévole, sans aucune publicité commerciale et gratuit à l’utilisation. Le plus gros obstacle reste l’infrastructure indispensable à tout moteur de recherche : des serveurs performants en quantité. Des partenaires et surtout des dons seront indispensables pour mener à bien un tel projet.
Je lance l’idée, je ne dis pas que ce moteur verra le jour, je ne dis pas que mon idée est parfaite, mais je lance le débat et si des personnes sont motivées à se lancer dans l’aventure, je suis ouvert.
J’ai ouvert une page et un wiki qui pourraient servir par la suite. N’hésitez pas à me contacter sur reivilo(@)valiz.org
Lancement du projet Valiz
Bonjour à tous et merci pour votre curiosité, Si vous êtes ici, c’est que vous vous intéressez au projet Valiz, je vais expliquer dans ce billet pourquoi j’ai lancé l’idée, pourquoi j’espère que Valiz voie le jour, comment sera organisé ce blog