Comment fonctionne un moteur de recherche

0
124

Comment les moteurs de recherche internet de travail

Avez écrit un court article sur la façon dont les moteurs de recherche de travail en 2002 et j’ai pensé que ce serait une bonne idée de vous le présenter ainsi. Les informations qu’il contient sont encore valables alors prenez votre temps et lisez cet article et postez vos commentaires et questions à l’endroit habituel:)

1. Structure du moteur de recherche

Un moteur de recherche se compose de huit éléments entrelacés, ceux-ci sont.

URL du serveur, sur chenilles, Parser, serveur de magasin, Lexicon, Hit List, Référentiel, Searchers

L’URL du serveur gère une liste qui contient des URL non vérifiées, de nouvelles URLs sont ajoutés au serveur Url de différentes façons, par exemple en utilisant un formulaire sur les moteurs de recherche du site. Une autre possibilité que de nouvelles URLs sont ajoutés, c’est que une url visité contient des liens vers de nouvelles URLs qui ne sont pas vérifiées. Chaque URL est une docID dite, qui est plus facile à archiver que l’URL complète.

Les chenilles se urls non vérifiée de l’URL du serveur et change l’URL en adresses IP en utilisant DNS. Dès que l’adresse IP est disponible, il ouvre une connexion HTTP vers l’adresse IP, si ce n’est avec succès il commence une commande GET pour recevoir le contenu de la page (source). Le contenu de la page est alors transféré à l’Storeserver qui compresse le contenu.
L’analyseur décompresse les sources qu’il reçoit de l’Storeserver. Après que la source est analysée de la manière suivante. D’abord, il cherche les mots qui ne sont pas dans son lexique, s’il trouve un nouveau mot, il est ajouté au lexique. Les mots qui existent déjà dans le lexique sont ajoutés à la liste de résultats avec une remarque sur la façon dont elle se produit souvent dans la source. Par ailleurs des informations comme le titre, une partie du texte ou le texte entier sont enregistrés dans le référentiel.
Le lexique contient tous les mots que l’analyseur trouve dans toutes les URL traitées, chaque mot a un pointeur vers la liste des résultats de ce mot.
The Hit List a des pointeurs vers le référentiel. Cela rend possible pour le moteur de recherche pour présenter les résultats assez rapidement. Toutes les informations sur le site qui est stockée dans le référentiel est présenté dans la fenêtre de résultat de recherche. (Normalement le titre, url et la première ligne (s) de la page)
Le Searcher est le lien entre l’utilisateur et le moteur de recherche. Les utilisateurs saisissent des expressions de recherche dans le Chercheur d’, tapez Entrée et le chercheur utilise le lexique et le Hit List pour présenter les résultats.

Exemple:
—-

Les types d’utilisateurs http://www.google.com/ dans son navigateur Web, puis entre l’expression de recherche «sécurité des sites Web» dans le champ de recherche. (Qui est le composant Searcher)
Le Chercheur utilise le lexique pour vérifier les pointeurs des deux mots (les pointeurs sont connectés à la Hit List), suit les pointeurs vers les Hit List, vérifie les 10 premières entrées de la Hit List, suit le pointeur vers le référentiel et crée une nouvelle page Web contenant les 10 premières entrées de la liste de résultats, le titre et quelques lignes des pages à partir du référentiel

L’élément le plus important d’un moteur de recherche est son système de notation. Les moteurs de recherche mesurent les urls pour déterminer quels résultats à afficher en premier quand un utilisateur lance une recherche. J’ai choisi Google comme le moteur de recherche représentatifs en raison du fait que les moteurs de recherche mesurent différemment.

Google attribue des points à chaque url, plus les points une url obtenu le plus élevé au rang de la liste des résultats. des éléments importants qui ajoutent des points sont l’URL, le titre, les mots-clés, le contenu, les rubriques ASO. De plus les urls obtenez des points pour chaque lien que les liens vers eux de d’autres URL. Liens à partir d’URL qui ont une cote élevée se donnent plus de points que des liens à partir des URL avec des notes faibles.

2. Méthodes de recherche avancée:

Moteurs de recherche utilisent des opérateurs booléens pour des recherches avancées. Les opérateurs AND, OR et NOT sont utilisés par tous les moteurs de recherche connus.

mot1 ET mot2 signifie que le moteur de recherche cherche des URL qui contiennent mot1 et mot2, les urls avec un seul de ces mots ne sont pas affichés dans les résultats

mot1 OU mot2 signifie que le moteur de recherche affiche tous tha URL contiennent mot1 mot2 ou ou mot1 et mot1.

mot1 mot2 PAS signifie que le moteur de recherche cherche les pages qui contiennent mot1 mot2 et PAS

Exemples: (google)
——–
“Président Clinton” – affiche les résultats avec les URL qui contiennent Clinton et le président, mais pas là où l’un d’eux est absent
“Clinton et le président” – même résultat que ci-dessus
«Clinton + Président» – même résultat que ci-dessus
“Clinton ou le président” – affiche les résultats avec les URL qui contiennent soit Clinton ou le président ou les deux
«Clinton PAS Président” – affiche les résultats avec les URL qui contiennent le président Clinton, mais PAS
“Clinton-président” – les mêmes résultats que ci-dessus

Google utilise des fonctionnalités supplémentaires, ceux-ci sont expliquées ci-dessous.

“Allintitle” – (allintitle: leur dénient la sécurité), affiche les URL qui contiennent les termes dans leur titre
“Allinurl” – (allinurl: la sécurité conseille), affiche les URL qui contiennent tous les termes dans leur URL.
“Cache” – (cache: www.deny.de), affiche une version mise en cache de l’URL demandée
“Date” – (google recherche avancée, pas de raccourci), présente les résultats d’une période spécifique
“Filetype” – (nient filetype: pdf), affiche les URL qui contiennent des termes de recherche et le type de fichier spécifié.
“Info” – (info: www.deny.de) Goggle listes des informations stockées sur le site web demandé
“Intitle” (intitle: la sécurité conseille), affiche url qui ont le premier terme de leur titre et les autres n’importe où sur la page.
“Inurl” – (inurl: la sécurité conseille), affiche les URL qui contiennent le premier terme dans leur URL et les autres termes n’importe où sur la page
«Langues» – (google recherche avancée, pas de raccourci), affiche uniquement les résultats dans une langue donnée
«Lien» – (lien: www.deny.de), affiche toutes les URL qui pointent vers la page
“Occurrences” – (google recherche avancée, pas de raccourci), précise l’endroit où le terme de recherche doit se produire sur la page
“Recherche de phrase» («pour garder un oeil sur”), les URL ne sont affichés là où la phrase est écrite comme ça. Il l’habitude de montrer des résultats là où seule une partie de la phrase est présente
“Connexes” – (liées: www.deny.de), affiche les pages similaires que
»Recherche sécuritaire» – (google recherche avancée, pas de raccourci), les filtres URL qui contiennent des pages Web inappropriés pour les mineurs, par exemple pages pornographiques
«Site» – (la sécurité du site: www.securityadvise.de), ne traite qu’une seule URL pour les termes
“Sort” – (orthographe: conseiller), vérification de l’orthographe du terme
«Stocks» – (stocks: YHOO), affiche des informations financières sur les entreprises, vous avez besoin de la spé

Moteur de recherche
Moteur de recherche