Retour au sommaire des méthodologies
Méthodologie Visibility

Agent-Readiness Score (Entreprises)

Agent-Readiness Score — criteria, automated tests and weighting.

(anciennement AEO Score)

Auteurs

Équipe de recherche AgentLayers

Publication

Mars 2026 — v1.0

Résumé

Alors que les agents IA deviennent une infrastructure critique dans les applications professionnelles et grand public, le besoin d'un cadre d'évaluation standardisé, reproductible et transparent devient primordial. Ce document présente la méthodologie de double scoring développée par AgentLayers : l'Agent-Readiness Score, qui mesure la capacité d'un site web à être découvert, compris et recommandé par les agents IA (score 0–100) ; et le Trust Score, qui évalue la fiabilité, la transparence, la sécurité et la conformité des agents IA à travers des tests entièrement automatisés, horodatés et publiquement auditables. Nous détaillons chaque critère, sa pondération, le protocole de test et l'implémentation technique. Tous les tests sont conçus pour être reproductibles et indépendants de toute relation commerciale avec les entités évaluées.

1Introduction

La prolifération rapide des agents IA — des assistants autonomes aux exécuteurs de tâches spécialisés — a créé un déficit de confiance dans l'écosystème. Les entreprises déployant des agents ont besoin de garanties de fiabilité et de conformité ; les utilisateurs finaux ont besoin de garanties de sécurité et de transparence ; et les entreprises souhaitant être découvertes par les agents doivent adapter leur présence numérique.

AgentLayers comble cette lacune avec deux instruments d'évaluation complémentaires. L'Agent-Readiness Score cible les entreprises cherchant à optimiser leur présence web pour l'économie agentique. Le Trust Score cible les agents IA eux-mêmes, fournissant une évaluation objective et automatisée de leur qualité opérationnelle. De plus, le Skill Trust Score évalue les skills tiers (plugins, outils, extensions) avant leur installation sur les agents IA, détectant l'injection de prompt, l'obfuscation, les permissions excessives et les risques de chaîne d'approvisionnement. Le MCP Server Trust Score évalue les configurations de serveurs Model Context Protocol pour la sécurité des endpoints, la portée des permissions, l'exfiltration de données et les faiblesses d'authentification. L'A2A Protocol Trust Score évalue les implémentations du protocole Agent-to-Agent pour l'authentification, la signature des messages, le contrôle de délégation et la vérification d'identité.

Principe de conception : Chaque test décrit dans cette méthodologie est entièrement automatisé, reproductible par tout tiers, et horodaté pour le suivi temporel. Aucune évaluation humaine subjective n'intervient dans le processus de notation.

2Agent-Readiness Score (Entreprises)

L'Agent-Readiness Score mesure la capacité d'un site web à être découvert, compris et recommandé par les agents IA. Le score va de 0 à 100 et est calculé automatiquement en explorant le site et en analysant sa structure, son contenu et ses métadonnées.

CritèrePoidsDescription
Données structurées20 %Détection et richesse JSON-LD, Open Graph, Microdata, RDFa
Lisibilité LLM15 %Capacité des LLM à comprendre le positionnement, l'offre et la proposition de valeur
Accessibilité technique10 %Crawlabilité, temps de réponse, SSL, robots.txt, sitemap
SEO agentique15 %Probabilité de recommandation par un agent par rapport aux concurrents
Découverte de protocoles15 %Endpoints well-known pour MCP, OAuth, A2A, API Catalog, Agent Skills (aligné Cloudflare)
Authority25 %Crédibilité externe — présence Wikipedia, âge du domaine, footprint Wayback, Open PageRank, rang Tranco

2.1Données structurées (30 %)

Les données structurées constituent le signal principal analysé par les agents IA. Elles transforment le contenu lisible par l'humain en information lisible par la machine. Notre crawler (construit sur Cheerio) analyse le document HTML et extrait tous les blocs <script type="application/ld+json">, les attributs itemscope/itemtype (Microdata), les attributs typeof/property (RDFa) et les balises meta og:*.

Chaque bloc JSON-LD est analysé et le champ @type est extrait. Les types sont comparés à une liste organisée de types de schémas à haute valeur (Organization, Product, FAQ, LocalBusiness, etc.). Le score maximum théorique par sous-critère est de 100, plafonné au poids de la section.

2.2Lisibilité LLM (25 %)

Ce critère évalue si un LLM peut comprendre le positionnement, l'offre et la proposition de valeur d'une entreprise en lisant le contenu de la page. Nous évaluons la clarté de la proposition de valeur, la structure et la hiérarchie du contenu, la présence d'informations tarifaires et l'utilisation de descriptions en langage naturel optimisées pour la compréhension par l'IA. La fonctionnalité Live Test — livrée en production sur les plans PRO — interroge des LLMs réels avec des requêtes incluant le nom de domaine (ex. : « Que sais-tu de Acme (acme.com) ? ») pour désambiguïser les marques homonymes et améliorer la précision du rappel.

2.3Accessibilité technique (20 %)

Ce critère évalue si un agent IA peut techniquement accéder au contenu du site sans friction. Les sous-critères incluent : temps de réponse (<2s), configuration SSL/TLS, accessibilité du robots.txt, présence d'un sitemap, codes de statut HTTP corrects et absence de mesures anti-bot agressives qui bloqueraient les crawlers IA légitimes.

2.4SEO agentique (25 %)

Le critère le plus stratégique. Il mesure si un agent IA choisirait de recommander cette entreprise plutôt qu'un concurrent. Les facteurs incluent les signaux d'autorité de domaine, la fréquence de citation dans les données d'entraînement de l'IA et la pertinence sémantique du contenu par rapport aux requêtes probables des agents.

Le SEO agentique complète le LLM Live Test (section 2.6) : les signaux structurels déterminent si une entreprise mérite d'être recommandée ; le test en direct vérifie si elle l'est effectivement.

2.5Découverte de protocoles

Au-delà du contenu et des métadonnées, les agents ont besoin de points d'entrée lisibles par machine : quelles API appeler, où s'authentifier, quelles compétences sont exposées. La Découverte de Protocoles sonde six endpoints well-known alignés sur les spécifications IETF / OpenAPI / MCP / A2A et la catégorie agent-readiness de Cloudflare. On valide les champs obligatoires des RFC et on ping les endpoints annoncés dans les métadonnées — une réponse 200 avec un JSON de la bonne forme ne suffit pas. WebMCP est affiché comme 7ème ligne informative mais n'est pas compté dans le score (sa vérification nécessite un navigateur headless).

  • Carte MCP Server décrivant les outils et capacités (MCP SEP-1649).
  • Métadonnées du serveur d'autorisation OAuth 2.0 (RFC 8414). La discovery OIDC est acceptée en repli.
  • Métadonnées de la ressource protégée OAuth 2.0 (RFC 9728).
  • Linkset de catalogue d'API pointant vers les descriptions OpenAPI / AsyncAPI (RFC 9727).
  • Carte d'agent Google Agent2Agent (A2A).
  • Index Agent Skills (proposition Cloudflare).
  • Enregistrement WebMCP runtime des outils navigateur (indicatif ; un check complet nécessite un navigateur headless).
Cette dimension a été directement informée par le lancement par Cloudflare de isitagentready.com (avril 2026), qui a validé la Découverte de Protocoles comme catégorie de premier rang. AgentLayers étend la même check-list par une analyse plus profonde au niveau du code — Trust Score (analyse du dépôt GitHub), scanners de sécurité Skill / MCP / A2A, et conformité EU AI Act. Les deux outils sont complémentaires : le scan gratuit de Cloudflare vous dit si vos endpoints existent ; AgentLayers vous dit si les agents et skills derrière sont dignes de confiance. Source :

2.6Authority (25 %)

Les cinq premières dimensions mesurent comment un site est structuré pour les agents — elles disent si votre contenu peut être extrait, parsé, exploité. Elles ne disent pas si un LLM va effectivement vous citer. Ce signal vit en dehors de la page : sur Wikipedia, dans le graphe des liens, dans le footprint Wayback, dans les années depuis lesquelles votre domaine existe.

Authority est la dimension qui referme le gap de validité. Elle compose cinq sous-signaux gratuits et vérifiables indépendamment — aucun ne se game en un sprint :

  • Open PageRank (30 %) — score 0–10 type Domain Authority dérivé du graphe public du web (free tier, 1000 lookups / mois).
  • Présence Wikipedia (20 %) — un article Wikipedia existe-t-il pour ce domaine ? Dans combien de langues ? Un site avec un article 30 langues est dans le training set de tous les LLMs majeurs.
  • Rang Tranco (20 %) — classement académique top-1M avec normalisation log (rang 1 → 100, rang 1M → 0).
  • Première archive Wayback (15 %) — années de continuité archivées par archive.org. Les sites crawlés depuis les 90s sont mémorisés par tous les runs d'entraînement.
  • Âge du domaine (15 %) — date d'enregistrement via RDAP. Un plancher qui empêche les domaines fraîchement créés de se faire passer pour des acteurs établis.
Authority est largement hors de votre contrôle à court terme. Ne traitez pas un Authority à 40/100 comme un échec — il indique que les LLMs ne vous ont pas encore mémorisé, ce qui est le point de départ rationnel pour tout site de moins d'une décennie. Concentrez-vous sur les dimensions 2.1–2.5 (structure) pour les 90 prochains jours, et sur l'obtention de citations depuis des sites haut-Tranco pour les 18 prochains mois.

2.8 Validation empirique

2.7Tests LLM : Mémoire d'entraînement + Découverte en direct (PRO)

Le score Agent-Readiness n'est pas un signal unique. AgentLayers exécute deux tests LLM complémentaires sur chaque scan PRO, parce qu'ils répondent à des questions différentes. C'est leur lecture conjointe qui produit un verdict honnête — aucun des deux pris isolément ne suffit.

2.7.1 Mémoire d'entraînement (hors-ligne, données d'entraînement uniquement)

Le test de mémoire interroge un modèle de chat sans accès web (par défaut : gpt-4o-mini). Il pose des questions incluant la marque comme « Que sais-tu de Acme (acme.com) ? » ainsi que des prompts de catégorie et de localisation dérivés des données structurées du site. Il mesure si le modèle connaît déjà votre marque via ses données d'entraînement.

La détection est basée sur la mention et tient compte des négations : les échos du nom de marque enrobés dans des formulations comme « Je ne connais pas » ou « Je ne suis pas familier avec » ne comptent pas comme une mention. Chaque prompt est classé Direct, Probable ou Absent. Ce signal est surtout pertinent pour les marques établies avec une présence web significative avant la date de coupure du modèle.

Un score de mémoire faible pour un site récent ou peu visible est attendu et n'est pas un échec — cela signifie simplement que le modèle ne vous a pas encore mémorisé. Lisez le test de Découverte ci-dessous pour le signal en direct.

2.7.2 Découverte en direct (avec recherche web)

Le test de découverte interroge un modèle avec recherche web activée (par défaut : gpt-4o-mini-search-preview) avec des prompts de catégorie qui ne nomment délibérément pas votre marque. Il mesure si les agents IA font remonter votre site de façon organique quand un utilisateur pose une question réaliste aujourd'hui, en utilisant des résultats de recherche web en direct.

Un prompt compte comme un succès si (a) le nom de votre marque apparaît dans la réponse, ou (b) au moins une URL citée pointe vers votre propre domaine. Chaque résultat inclut les sources citées pour que vous puissiez auditer les pages que le modèle a réellement consultées. C'est le signal qui correspond à ce que voient les utilisateurs quand ils interrogent ChatGPT, Perplexity ou Claude avec la recherche web activée.

Fonctionnalité PRO : Les deux tests nécessitent des appels API réels — le test de mémoire coûte le tarif standard d'un chat-completion, et le test de Découverte ajoute un surcoût de recherche web par prompt. Disponible sur les plans PRO et supérieurs. Les scans FREE affichent un aperçu verrouillé. Aucun des deux tests n'entre dans le calcul de l'Agent-Readiness Score — ce sont des signaux qualitatifs affichés en complément, et ils sont conçus pour être lus ensemble.

3Principes fondamentaux

Reproductibilité

Chaque test peut être relancé par n'importe quelle partie et produira le même score (dans la variance stochastique du LLM). La méthodologie est documentée publiquement.

Évolution temporelle

Les scores ne sont pas statiques. Chaque test est horodaté et stocké. Les utilisateurs voient les courbes d'évolution des scores au fil du temps. Les agents en dégradation sont signalés ; les agents en amélioration gagnent en visibilité.

Transparence de la méthodologie

La méthodologie complète est publiée en accès libre. L'avantage concurrentiel n'est pas la méthodologie — c'est l'exécution, les données accumulées et les effets de réseau.

Indépendance

AgentLayers ne vend pas de services d'optimisation aux agents qu'il évalue. Le modèle économique (abonnements, listings premium, API) ne crée aucun conflit d'intérêt avec le scoring.

Références

  1. Schema.org — Vocabulaire de données structurées, https://schema.org (consulté en mars 2026).
  2. Google — Documentation de l'outil de test de données structurées, https://developers.google.com/search/docs/appearance/structured-data (2025).
  3. Commission européenne — Règlement sur l'intelligence artificielle (EU AI Act), Règlement (UE) 2024/1689 (2024).
  4. RGPD — Règlement général sur la protection des données, Règlement (UE) 2016/679 (2016).
  5. OWASP — Top 10 des risques de sécurité LLM, v1.1 (2024).

Ce document constitue la référence technique publique pour les algorithmes de scoring d'AgentLayers. Il est mis à jour à mesure que le produit évolue et sert de base à tous les processus d'évaluation.
© 2026 AgentLayers Research — Méthodologie ouverte, v1.0 — Mars 2026