What is an Agent-Readiness Score?

An Agent-Readiness Score (0-100) measures how well AI agents can discover, understand, and recommend your business. It evaluates structured data, LLM readability, technical accessibility, and agentic SEO signals.

How does AgentLayers help with EU AI Act compliance?

AgentLayers automatically evaluates AI agents against EU AI Act requirements including risk classification, transparency obligations, and documentation standards. It provides compliance scoring and readiness checklists aligned with Regulation (EU) 2024/1689.

Is the Agent-Readiness Scanner free?

Yes, all features are free during the beta phase. You can run unlimited scans without signing up. Create a free account to save your scan history and track improvements over time.

What is the AgentLayers Trust Score for AI agents?

The Trust Score (0-100) evaluates AI agents across multiple dimensions: security, interoperability, documentation, and reliability. High-scoring agents earn a verified AgentLayers Certified badge and are listed in our curated agent directory.

Validation de la méthodologie — Reproductibilité

1.Pourquoi cette page existe

Mesurer comment un site est structuré pour les agents IA est une chose. Montrer que le nombre obtenu reflète l'autorité réelle en est une autre. Notre revue interne a constaté que le score historique 5 dimensions sur-valorisait des sites jeunes à l'hygiène technique solide, et sous-valorisait des sites institutionnels que les LLMs citent en réalité. On a ajouté une dimension Authority (présence Wikipedia, âge du domaine, footprint Wayback, Open PageRank, rang Tranco) à 25 % du composite pour corriger ce biais.

Cette page démontre la correction. On classe à la main 30 sites en trois strates — A institutionnel, B SaaS milieu de gamme, C jeunes / locaux — et on vérifie que le score 6 dimensions déplace chaque strate dans le sens attendu : A monte, C descend. C'est de la validité de construit. On lance aussi une sonde de citation LLM en signal secondaire, dont les limites sont déclarées honnêtement plus bas.

2.Méthode

30 sites sur 3 strates : A — institutionnel / haute citation (LinkedIn, Wikipedia, GitHub, …) ; B — SaaS milieu de gamme (Calendly, PostHog, Linear, …) ; C — sites plus jeunes ou locaux à faible présence dans les corpus.
5 prompts standardisés au niveau catégorie par site, exécutés sur un seul LLM (OpenAI GPT-4o). La limite « juge unique » est discutée explicitement dans la divulgation plus bas.
citationRate = (réponses citant le domaine) / (5 prompts) — un scalaire dans [0, 1].
Signal principal : moyenne par strate de v1 (historique) et v2 (avec Authority). La dimension Authority est validée si la moyenne v2 de la strate A est ≥ moyenne v1, et si la moyenne v2 de la strate C est ≤ moyenne v1.
Signal secondaire : corrélation de rang de Spearman ρ(score, citationRate), reportée avec un intervalle de confiance bootstrap mais à interpréter avec prudence — une sonde à juge unique sature au plafond pour les sites que le modèle connaît déjà bien, surtout dans les marchés non-anglophones.

Requêtes par site

5 prompts × 1 modèle

Modèles testés

OpenAI GPT-4o

Critère de validation

VALIDÉ

Direction Authority correcte par strate

3.Validité de construit — comportement du score par strate

Si la dimension Authority fait ce pour quoi elle a été conçue, les sites institutionnels (strate A) doivent voir leur score remonter (ou rester stable) et les sites jeunes / locaux (strate C) doivent voir leur score descendre. Le tableau ci-dessous présente le mouvement moyen v1 → v2 par strate, calculé sur le dernier run (sites sentinelles exclus).

Stratum	Sites	Moy. v1	Moy. v2	Δ (v2 − v1)	Moy. Authority	Moy. taux cite
A · Institutionnel	10	49.2	50.7	+1.5	66.9	94%
B · SaaS milieu de gamme	10	57.0	51.2	-5.8	47.9	70%
C · Jeune / local	9	54.7	45.1	-9.6	28.3	93%

↑ Authority a remonté les sites institutionnels de 1.5 points en moyenne — exactement la direction recherchée pour cette dimension.

↓ Authority a fait baisser les sites jeunes / locaux de 9.6 points en moyenne — l'inflation qu'on visait à corriger.

4.Signal secondaire · Sonde de citation LLM

ρ(v1, citation)

-0.20

Score 5 dimensions historique

ρ(v2, citation)

-0.02

6 dimensions avec Authority · CI 95% [-0.38, 0.34]

Statut Phase 1

VALIDÉ

Δ = 0.18 · à interpréter avec la réserve juge unique

Note juge unique : avec un seul LLM et 5 prompts par site, citationRate n'a que 6 valeurs possibles (0/5 … 5/5), et le modèle sature à 100 % pour les sites qu'il connaît bien — notamment les marques françaises présentes dans ses données d'entraînement, indépendamment des signaux Authority (Wikipedia, PageRank, Tranco) majoritairement anglophones. Le Spearman est reporté par transparence mais ne peut pas valider indépendamment le score avec ce budget d'échantillonnage. Une Phase 2 multi-juges (plusieurs LLMs + métrique de rang pondéré) est le test empirique propre ; on publie Phase 1 en l'état plutôt que d'attendre.

5.Ce que la Phase 2 changerait

Trois changements refermeraient le gap empirique laissé par la Phase 1 : (a) deux juges LLM supplémentaires pour casser le biais mono-modèle, (b) un citationRate de position dans une liste (où la marque apparaît-elle dans un top-N ?) pour récupérer la variance perdue par saturation, (c) doubler le dataset à 60 sites avec plus de strate C internationale. La Phase 1 est publiée car la validité de construit ci-dessus tient indépendamment de ces changements — ils ne raffinent que le signal secondaire.

Run Phase 1 mis à jour 2026-05-14. Le benchmark est relancé chaque fois que la formule de score change matériellement ; les résultats sont versionnés et l'historique reste consultable sur demande.

La dimension Authority déplace-t-elle le score dans la direction attendue ?

1.Pourquoi cette page existe

2.Méthode

3.Validité de construit — comportement du score par strate

4.Signal secondaire · Sonde de citation LLM

5.Ce que la Phase 2 changerait