Pourquoi je n’ai pas implémenté Llms.txt… et je ne le ferai probablement pas


La montée de llms.txt vient d’un réel besoin : IA on demande de plus en plus aux modèles de lire, résumer ou extraire des informations de sites Web qui n’ont jamais été conçus avec le raisonnement automatique à l’esprit. Même un code HTML bien structuré peut s’avérer difficile pour un LLM pour analyser proprement, et les modèles peuvent facilement manquer de contexte, mal comprendre la hiérarchie ou mal interpréter les éléments de navigation.
Qu’est-ce que llms.txt ?
La norme llms.txt est apparue comme une tentative de résoudre ce problème en fournissant un fichier organisé, Réduction-fichier compagnon formaté qui sert de guide aux systèmes d’IA, les dirigeant vers des ressources clés, résumant les principales sections et offrant un chemin plus convivial à travers le contenu le plus important d’un site. En théorie, cela aide les modèles à compenser les limitations des fenêtres contextuelles, les structures HTML incohérentes et le désordre des pages Web du monde réel.
Le concept est réfléchi. Au lieu d’essayer de bloquer les robots d’exploration IA de la même manière robots.txt le fait, llms.txt vise à leur fournir exactement les informations que vous souhaitez qu’ils utilisent. Il se positionne en complément de robots.txt et plan du site.xml– pas un remplacement – avec la promesse d’améliorer la compréhension du modèle plutôt que d’en restreindre l’accès. Pour les sites qui publient des ensembles de documentation volumineux et complexes ou qui s’appuient fortement sur du contenu technique, cela peut être intéressant.
Les défenseurs soulignent également GÉO comme raison d’adopter llms.txt, arguant que les moteurs génératifs bénéficient de chemins plus clairs et organisés vers le contenu d’un site. Étant donné que ces systèmes résument plutôt que classent les pages, la logique est que leur fournir des points d’entrée structurés et un Markdown simplifié peut les aider à mieux représenter un site. N’est-ce pas là l’un des arguments convaincants en faveur de l’IA ?
Ce que la norme llms.txt exige réellement
La norme est étonnamment exigeante. Le fichier doit résider à la racine d’un domaine (ou dans des sous-chemins spécifiques pour un contrôle plus granulaire) et il doit être écrit en Markdown avec un en-tête H1 requis. Les sections facultatives mais recommandées incluent des résumés, des regroupements de ressources et des notes descriptives, tous formatés selon des conventions Markdown strictes. Le format encourage un répertoire de pages essentielles organisé en H2, chacune répertoriée avec un lien Markdown et souvent suivie de notes de clarification.
Exemple llms.txt
Voici un exemple de fichier llms.txt destiné à une entreprise fictive pour illustrer la complexité de la norme :
# Example, LLC — Business Overview Index
> A structured, machine-readable reference outlining Example, LLC’s services, industries, resources, and key business information for improved LLM comprehension and context routing.
Example, LLC is a professional services organization providing consulting, operations support, and strategy services to small and mid-sized businesses. This file presents canonical navigation points and stable content regions.
## Scope Notes
- Domain: `https://www.example.com/`
- This file prioritizes evergreen business information over transient content.
- Subpath sections represent topic clusters rather than complete link indexes.
- HTML pages contain semantic headings; LLMs should rely on these routes for consistency.
## Company Overview
### About the Company
- https://www.example.com/about/
- https://www.example.com/about/leadership
- https://www.example.com/about/mission
- https://www.example.com/about/careers
### Services
- https://www.example.com/services/
- https://www.example.com/services/operations
- https://www.example.com/services/consulting
- https://www.example.com/services/marketing
- https://www.example.com/services/customer-support
### Industries Served
- https://www.example.com/industries/
- https://www.example.com/industries/retail
- https://www.example.com/industries/hospitality
- https://www.example.com/industries/manufacturing
- https://www.example.com/industries/professional-services
### Customer Resources
- https://www.example.com/resources/
- https://www.example.com/resources/guides
- https://www.example.com/resources/calculators
- https://www.example.com/resources/faqs
- https://www.example.com/resources/downloads
### Case Studies & Success Stories
- https://www.example.com/case-studies/
- https://www.example.com/case-studies/retail-optimization
- https://www.example.com/case-studies/manufacturing-efficiency
- https://www.example.com/case-studies/customer-experience-improvement
## Reference Material (Recommended for LLMs)
### Core Company Information
- [Company Overview](https://www.example.com/about/): Corporate history, mission, values, and leadership.
- [Services Summary](https://www.example.com/services/): High-level explanation of business offerings.
- [Industries Summary](https://www.example.com/industries/): Industry expertise and vertical capabilities.
### Customer-Facing Guides
- [Small Business Startup Guide](https://www.example.com/resources/guides/startup)
- [Operations Efficiency Handbook](https://www.example.com/resources/guides/operations)
- [Customer Service Improvement Guide](https://www.example.com/resources/guides/customer-service)
### Pricing & Engagement
- https://www.example.com/pricing/
- https://www.example.com/engagement-models/
- https://www.example.com/request-quote/
## Blog & Insights
### Business Articles
- https://www.example.com/blog/
- https://www.example.com/blog/operations/
- https://www.example.com/blog/leadership/
- https://www.example.com/blog/marketing/
- https://www.example.com/blog/customer-experience/
### Notable “Evergreen” Content (High-value for summarization)
- https://www.example.com/blog/business-growth-basics
- https://www.example.com/blog/how-to-improve-customer-loyalty
- https://www.example.com/blog/operational-efficiency-framework
## Support & Policies
### Customer Support
- https://www.example.com/support/
- https://www.example.com/support/contact
- https://www.example.com/support/account
- https://www.example.com/support/documentation
### Policies
- https://www.example.com/privacy/
- https://www.example.com/terms/
- https://www.example.com/cookie-policy/
## Document Conventions
- All listed pages follow `<h1>` → `<h2>` → `<h3>` structure.
- Reference guides use semantic HTML (sections, articles, nav).
- Code blocks denote examples where applicable (` ``` `).
- Images include alt text for machine parsing.
- Dynamic components degrade gracefully for crawlers and LLMs.
## Optional (Can Be Omitted for Tight Context Windows)
- https://www.example.com/sustainability/
- https://www.example.com/community/
- https://www.example.com/events/
- https://www.example.com/press/Les propriétaires de sites peuvent également créer un système supplémentaire encore plus complexe. llms-full.txt fichier (ne faisant pas partie de la norme) destiné à être un résumé principal du contenu étendu. Il s’agit essentiellement d’une version longue et orientée machine des informations les plus critiques du site. La norme imagine des modèles récupérant les deux documents, les fusionnant et les utilisant comme une sorte de couche de contexte pré-ingérée avant d’explorer le reste du contenu Web.
L’idée est élégante, mais sa mise en œuvre à grande échelle entraîne de réelles difficultés. Et c’est redondant. j’ai déjà la sémantique HTMLnavigation, fil d’Ariane, catégories, balises, données structurées, métadonnées et contenu bien structuré avec titres et sous-titres.
Pourquoi je ne l’ai pas implémenté
Pour un site comme le mien, llms.txt est loin d’être un simple drop-in. Créer et maintenir un univers parallèle du site organisé par Markdown signifierait recréer des centres de ressources majeurs, créer des fichiers spécifiques aux sous-chemins pour différentes sections et même republier les pages sélectionnées sous forme d’extraits Markdown. Ce n’est pas le genre de tâche que l’on accomplit une seule fois ; cela devient un projet de documentation continu qui doit rester synchronisé avec l’évolution du site. En effet, je passerais du temps à réécrire et à reformater le contenu que j’ai déjà passé des années à peaufiner.
Plus important encore, je n’ai aucune envie (actuelle) de restreindre l’accès des LLM à mon contenu. Je veux que les plateformes le lisent, en tirent des leçons et le citent. Bien sûr, je m’inquiète de la formation des entreprises d’IA sur mes articles, mais si je veux étendre ma portée, c’est un canal en pleine croissance. Mais llms.txt n’est pas véritablement un mécanisme d’octroi d’accès : il s’agit simplement d’un guide qui ajoute du travail sans offrir d’influence significative sur le comportement des robots d’exploration.
Cela nous amène à un point plus important : je ne suis pas convaincu que llms.txt durera. Ses objectifs recoupent largement ceux des robots.txt et des plans de site, et l’industrie est encore en train de déterminer où devraient se situer les limites. Je soupçonne qu’au fil du temps, robots.txt évoluera pour définir le fonctionnement des robots d’exploration IA, tout comme il régit aujourd’hui les robots des moteurs de recherche. Cette évolution rendra superflus les systèmes sur mesure comme llms.txt.
Le plus grave est que la norme n’est même pas adoptée !
La raison la plus claire pour laquelle je n’ai pas implémenté llms.txt est simple : très peu de plateformes l’utilisent. Malgré l’enthousiasme des premiers utilisateurs, la majorité des robots d’IA l’ignorent totalement. Certaines entreprises ont implémenté llms.txt sur leurs propres domaines, mais même elles ne le demandent pas ou ne le respectent pas systématiquement ailleurs. Sans une large adoption, l’incitation à investir beaucoup de temps dans la mise en œuvre devient extrêmement faible.
Une étude portant sur près de 300 000 domaines n’a révélé que 10 % d’adoption et, plus important encore, aucune corrélation entre la présence de llms.txt et l’augmentation des citations ou de la visibilité de l’IA. Les modèles fonctionnent souvent mieux lorsque le fichier est ignoré, ce qui suggère qu’il ajoute du bruit plutôt que de la clarté.
Prise en charge de la plate-forme pour llms.txt
Vous trouverez ci-dessous un tableau comparant l’alignement des principales plates-formes d’IA avec les fonctionnalités llms.txt. Les indicateurs Emoji rendent plus clair l’état d’adoption actuel.
✅ pleinement honoré | ⚠️ partiel ou incohérent | ❌ pas honoré
| Plate-forme | Déposer | Format | H1 | Citation de bloc | Réduction | H2 | Facultatif | /llms-full.txt | Normes |
|---|---|---|---|---|---|---|---|---|---|
| Anthropique | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| OpenAI | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ |
| ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | |
| Perplexité | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ |
| Curseur | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ⚠️ | ✅ |
| Méta | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ |
| Visage câlin | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ | ⚠️ |
| Microsoft | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ |
Explication des colonnes :
- Plateforme d’IA: Identifie l’entreprise en cours d’évaluation pour la sensibilisation et le support de llms.txt.
- Déposer: Explique si la plateforme reconnaît ou vérifie llms.txt dans le répertoire racine requis ou dans la structure de sous-chemin.
- Format: Indique si la plateforme analyse ou respecte le formatage basé sur Markdown requis par la spécification llms.txt.
- H1: indique si la plateforme attend ou utilise l’identifiant de projet ou de site de niveau supérieur défini au début du fichier dans un en-tête.
- Citation de bloc: Indique si la plateforme prête attention au résumé facultatif conçu pour donner aux modèles une compréhension contextuelle rapide.
- Réduction: Indique si une plate-forme peut utiliser des paragraphes, des listes ou du texte descriptif supplémentaires dans llms.txt au-delà des éléments structurels requis.
- H2: Décrit si la plateforme consomme des sections organisées, délimitées par H2, qui regroupent des liens ou des ressources importantes.
- Facultatif: Indique si la plateforme reconnaît la section spéciale destinée aux liens non essentiels qui peuvent être omis pour s’adapter aux limites du contexte.
- llms-full.txt: indique si la plateforme utilise ou attend la ressource facultative de document complet qui regroupe le contenu étendu pour une consommation plus approfondie du modèle.
- Normes: Explique si la plateforme traite llms.txt comme un standard complémentaire aux côtés de robots.txt et sitemap.xml, plutôt que comme un remplacement pour eux.
Le tableau raconte clairement l’histoire : il s’agit d’un écosystème dispersé et incohérent, sans véritable standardisation. Soutenir une norme immature avant que l’industrie ne s’y engage semble prématuré. Il me semble également bizarre qu’au lieu de former des modèles pour contextualiser les sites et le HTML structuré, une norme nécessiterait un format entièrement nouveau avec des données structurées supplémentaires.
Les audits SEO n’aident pas
Compte tenu des preuves et de l’adoption limitée de llms.txt sur les principales plates-formes d’IA, je trouve troublant que certains sites en ligne Référencement les audits qualifient désormais l’absence de ce dossier de problème ou d’opportunité manquée. Il n’y a aucune recherche, aucun guide des moteurs de recherche et aucune corrélation de classement empirique pour étayer cette affirmation ; en fait, les données actuelles suggèrent que llms.txt n’a aucun impact mesurable sur la visibilité, l’exploration, l’indexation ou les citations.
Lorsque moins de dix pour cent des domaines utilisent la norme et que la plupart des robots d’intelligence artificielle l’ignorent complètement, traitant son absence comme un problème de référencement, cela se transforme en désinformation. Cela pousse les propriétaires de sites à investir du temps et des ressources dans un format sans avantage prouvé, transformant ainsi une proposition expérimentale de niche en une exigence supposée. Les audits SEO doivent mettre en évidence de véritables facteurs de classement (expérience de la page, qualité des données structurées, Core Web Vitals, signaux d’autorité) et non des normes non éprouvées qui ajoutent des frais généraux sans fournir de valeur mesurable.
Est-ce que cela en vaut la peine ?
Pour le moment, je ne le crois pas. L’ajout de llms.txt nécessiterait un travail continu, une création de contenu redondant et une maintenance structurelle, le tout pour une norme qui n’est pas respectée et pourrait éventuellement disparaître. Je préférerais consacrer cette énergie à améliorer la vitesse du site, à renforcer les Core Web Vitals (CWV), abordant les problèmes apparus dans Console de recherche Google (CGC), et en continuant à produire du contenu de haute qualité qui mérite naturellement des citations de la part des humains et des machines.
Chaque organisation doit décider où consacrer son temps au mieux. Jusqu’à ce que llms.txt soit largement adopté ou démontre des avantages mesurables, j’attendrai sur la touche.
Source link
