Comment notre crawler web fonctionne-t-il ?

Un outil d’indexation pour découvrir tout votre contenu où qu'il soit stocké

Offrez à vos utilisateurs une excellente expérience de recherche sur site

Le contenu de votre site web est-il cloisonné dans des systèmes distincts et géré par des équipes différentes ? La première étape pour offrir une expérience de recherche de haute qualité consiste à mettre en place un processus d’indexation de premier ordre.

Notre robot d’indexation peut vous faire gagner du temps et réduire vos dépenses en éliminant le besoin de construire des data pipelines entre chacun de vos répertoires de contenu et votre logiciel de recherche ainsi que la gestion de projet que cela implique.

Transformez votre site en contenu structuré

Vous pouvez indiquer à notre crawler de site la manière dont doit il fonctionner pour interpréter correctement votre contenu. Par exemple, en plus de pages web standard vous pouvez offrir aux utilisateurs la possibilité de de rechercher et de naviguer dans des articles d’actualité, des offres d’emploi et des rapports financiers, y compris des informations contenues dans des documents, des PDF, du HTML et du JavaScript.

Vous n’avez pas besoin d’ajouter de balises méta

Vous pouvez faire extraire votre contenu sans préalablement ajouter de balises méta à votre site. Notre crawler web ne s’appuie pas sur des métadonnées personnalisées. Au lieu de cela il fournit à votre équipe technique un éditeur ergonomique pour définir le contenu que vous voulez extraire et la manière dont le structurer.

Enrichissez votre contenu pour le rendre plus pertinent

Pour améliorer la pertinence des résultats de recherche, vous pouvez enrichir le contenu extrait avec des données business, provenant notamment de Google Analytics et Adobe Analytics. Pour améliorer la pertinence des résultats de recherche, vous pouvez enrichir le contenu extrait avec des données business, provenant notamment de Google Analytics et Adobe Analytics.

Configurez votre crawler selon vos besoins

Programmation des sessions d’indexation automatique

Vous pouvez configurer notre outil d’indexation de site pour qu’il examine vos données web selon un calendrier en temps réel, par exemple tous les soirs à 21 heures, avec un nouveau processus d’indexation à midi le lendemain.

Configuration manuelle d’une indexation

Si nécessaire, vous pouvez déclencher manuellement l’indexation d’une section particulière de votre site web, voire de l’ensemble de celui-ci.

Définition du chemin à suivre

Vous pouvez définir les parties de votre site ou les pages web que vous souhaitez voir indexer (ou éviter) par notre robot d’indexation, ou vous pouvez le laisser explorer automatiquement toutes les pages.

Gestion des permissions

Configurez notre crawler pour explorer et indexer les pages protégées par des identifiants de connexion.

Mettez à jour votre contenu à indexer

Inspecteur d’URL

Dans l’onglet Inspecteur vous pouvez voir et inspecter toutes vos URL indexées, suivre le statut de chaque indexation, leur complétion et les enregistrements qui ont été générés.

Monitoring

Auf der Registerkarte „Monitoring“ können Sie die Details zum letzten Durchforsten anzeigen und Ihre durchforsteten URLs nach Status sortieren (Erfolg, ignoriert, fehlgeschlagen).

Data Analysis

Auf der Registerkarte „Data Analysis“ können Sie die Qualität Ihres vom Webcrawler generierten Index beurteilen und sehen, ob es Datensätze mit fehlenden Attributen gibt.

Path Explorer

On the Path Explorer tab, you can see which paths the crawler has explored; for each, how many URLs were crawled, how many records were extracted, and how many errors were received during the crawling process.

The most advanced companies experiment everyday with the crawler

“We realized that search should be a core competence of the LegalZoom enterprise, and we see Algolia as a revenue generating product.”

Mrinal Murari

Tools team lead & senior software engineer @ LegalZoom

Recommended content

What is a web crawler?

A web crawler is a bot—a software program—that systematically visits a website, or sites, and catalogs the data it finds.

30 days to improve our Crawler performance by 50%

This article is about how we reworked the internals of our app crawler, looked for bottlenecks, and streamlined tasks to optimize the processing of this complex parallel & distributed software.

Algolia Crawler

An overview of what the Algolia Crawler can do for your website.

Website Crawler FAQ

Créez les meilleures expériences de recherche et de navigation