avril 8, 2025

Types de sources de recherche Sitecore – Partie I / Blogs / Perficient

Sitecore Search est une solution de recherche robuste conçue pour rationaliser facilement l’indexation et la récupération du contenu. Soutenant un large éventail de types de sources, il permet aux développeurs d’intégrer divers référentiels de contenu sans transpirer. Dans ce blog, nous allons plonger en profondeur dans les différents types de source de recherche de Sitecore, avec des exemples de mise en œuvre, pour vous aider à lancer le sol – et peut-être même nous amuser en cours de route! Parce qu’avons-le, même, même les solutions de recherche peuvent être excitantes lorsque vous savez ce que vous faites. Prêt? Cherchons le succès!

Recherche de Sitecore Prend en charge plusieurs sources de contenu, notamment des robots Web, des sources basées sur l’API, du contenu Sitecore (XM / XP), des sources de base de données et des sources basées sur des fichiers.

Crawler Web & Web Crawler (Advanced)

Sitecore Search Web Crawlers est utilisé pour indexer des sites Web externes tels que les pages marketing, les blogs ou la documentation d’aide. Ils peuvent extraire du contenu, des métadonnées, des titres et des liens pour unifier la recherche entre les sources. Les Crawlers soutiennent la pagination, respectent les robots.txt et peuvent suivre les liens, y compris les PDF. Ils travaillent avec des sites orientés publics ou du contenu fermé en fonction du support d’authentification. Le robot de base est le meilleur pour le HTML statique, tandis que le robot de robot avancé ajoute une prise en charge du contenu dynamique, des sources basées sur l’API.

Le Crawler Web de base convient aux blogs simples ou aux pages de marketing simples, à l’extraction d’éléments standard comme le titre, le corps et les métadonnées et la gestion de la pagination de base. Il peut également utiliser des sitemaps ou des filtres URL simples et prend en charge l’authentification de base pour le contenu fermé. Cependant, pour des scénarios plus complexes, un robot avancé est nécessaire. Il prend en charge le contenu authentifié à l’aide de jetons ou d’en-têtes personnalisés, peut extraire et traiter les liens PDF et gère l’extraction DOM basée sur DOM ou multi-templices. Le Crawler avancé fonctionne également bien pour indexer des sites Web multilingues, ramper le contenu structuré comme les tables ou les métadonnées Schema.org et accéder aux sites dynamiques ou lourds en javascript en ciblant les points de terminaison de l’API.

Robot API

Une organisation a des données de produit stockées dans un CMS sans tête ou une plate-forme de commerce électronique personnalisée. Chaque produit est disponible via un point de terminaison API RESTful à l’aide d’une requête comme:

query { 
    products {
       id
       name
       description
       price
      image {
        url
        altText
       }
   }

Cette requête récupère des données de produit structurées ainsi que des informations multimédias (URL d’image et texte ALT), qui peuvent être mappées sur les champs d’index de recherche Sitecore pour afficher dans les résultats de recherche ou les expériences personnalisées.

L’objectif est de rendre ce contenu consultable dans la recherche Sitecore avec des métadonnées structurées (nom, description, prix, catégories, images).

L’API Crawler est idéal lorsque les données ne sont pas disponibles en tant que pages HTML publiques ou lorsqu’il y a un besoin de contrôle complet sur l’indexation. Il fonctionne en envoyant des demandes de GET à l’API, en analysant la réponse JSON et en mappant les données aux champs d’index de recherche Sitecore. Il prend en charge la pagination, l’authentification basée sur les jetons et les en-têtes personnalisés, ce qui le rend parfait pour les intégrations sécurisées ou complexes. Vous pouvez filtrer, transformer ou enrichir les données avant l’indexation, ce qui est particulièrement utile pour des sources fréquemment mises à jour comme les catalogues de produits ou le contenu gérés dans les plates-formes CMS sans tête.

Que garder à l’esprit

Lors de la mise en œuvre de la recherche Sitecore, il est crucial de prendre en compte des facteurs comme la fraîcheur du contenu (personne n’aime les résultats obsolètes), la fréquence d’indexation (car un rafraîchissement une fois par an ne le coupe pas) et la structure des données (gardez-la propre ou risque une catastrophe de recherche). Si vous travaillez avec des sites Web de JavaScript, préparez-vous – les robots de web peuvent être dépassés, de sorte qu’une configuration supplémentaire peut être nécessaire. Pour les sources basées sur l’API, assurez-vous de gérer correctement les limites de taux et l’authentification, ou vous serez coincé en attendant la permission de continuer. Et lorsque vous indexez le contenu CMS Sitecore, n’oubliez pas de prendre en compte les états de versioning et de workflow – après tous, seul le contenu publié devrait se rendre à l’index. Avec un peu d’attention aux détails, vos résultats de recherche seront de premier ordre, et tout le monde pense que vous êtes un assistant de recherche Sitecore!

Sitecore Search fournit une gamme de types de sources flexibles pour répondre à tous vos besoins d’indexation, en veillant à ce que les entreprises puissent offrir une expérience de recherche transparente et efficace. Qu’il s’agisse de contenu du site Web, de données structurées ou d’informations basées sur des documents, la recherche Sitecore a les outils pour tout rendre consultable et accessible, comme un moteur de recherche super puissant, mais sans le Cape Superhero (bien que nous soyons sûrs que cela aurait l’air bien). Dans mon prochain blog, nous explorerons plus de types de source de recherche Sitecore et leurs cas d’utilisation uniques. Ce sera un voyage, et non, vous n’aurez pas besoin d’une boussole – juste une bonne connexion Internet et peut-être une tasse de café! Restez à l’écoute pour en savoir plus! Pour un aperçu complet de la recherche Sitecore, y compris des robots, des extracteurs et des widgets, n’hésitez pas à se référer à mon article de blog précédent: Donner un sens à la recherche de Sitecore: Crawlers, extracteurs et widgets.

Blog ARC Optimizer

avril 8, 2025

Types de sources de recherche Sitecore – Partie I / Blogs / Perficient

Crawler Web & Web Crawler (Advanced)

Robot API

Que garder à l’esprit

Articles similaires

Blog ARC Optimizer

Crawler Web & Web Crawler (Advanced)

Robot API

Que garder à l’esprit

Partager :

Articles similaires