Retour méthodologie Visibility
Validité de construit · Phase 1

La dimension Authority déplace-t-elle le score dans la direction attendue ?

Comment le score Agent-Readiness 6 dimensions est testé contre une typologie de sites pré-classés à la main, complété par une sonde de citation LLM en signal secondaire.

Last run: May 14, 2026 · 30 sites · openai, anthropic

1.Pourquoi cette page existe

Mesurer comment un site est structuré pour les agents IA est une chose. Montrer que le nombre obtenu reflète l'autorité réelle en est une autre. Notre revue interne a constaté que le score historique 5 dimensions sur-valorisait des sites jeunes à l'hygiène technique solide, et sous-valorisait des sites institutionnels que les LLMs citent en réalité. On a ajouté une dimension Authority (présence Wikipedia, âge du domaine, footprint Wayback, Open PageRank, rang Tranco) à 25 % du composite pour corriger ce biais.

Cette page démontre la correction. On classe à la main 30 sites en trois strates — A institutionnel, B SaaS milieu de gamme, C jeunes / locaux — et on vérifie que le score 6 dimensions déplace chaque strate dans le sens attendu : A monte, C descend. C'est de la validité de construit. On lance aussi une sonde de citation LLM en signal secondaire, dont les limites sont déclarées honnêtement plus bas.

2.Méthode

  • 30 sites sur 3 strates : A — institutionnel / haute citation (LinkedIn, Wikipedia, GitHub, …) ; B — SaaS milieu de gamme (Calendly, PostHog, Linear, …) ; C — sites plus jeunes ou locaux à faible présence dans les corpus.
  • 5 prompts standardisés au niveau catégorie par site, exécutés sur un seul LLM (OpenAI GPT-4o). La limite « juge unique » est discutée explicitement dans la divulgation plus bas.
  • citationRate = (réponses citant le domaine) / (5 prompts) — un scalaire dans [0, 1].
  • Signal principal : moyenne par strate de v1 (historique) et v2 (avec Authority). La dimension Authority est validée si la moyenne v2 de la strate A est ≥ moyenne v1, et si la moyenne v2 de la strate C est ≤ moyenne v1.
  • Signal secondaire : corrélation de rang de Spearman ρ(score, citationRate), reportée avec un intervalle de confiance bootstrap mais à interpréter avec prudence — une sonde à juge unique sature au plafond pour les sites que le modèle connaît déjà bien, surtout dans les marchés non-anglophones.

Requêtes par site

5

5 prompts × 1 modèle

Modèles testés

1

OpenAI GPT-4o

Critère de validation

VALIDÉ

Direction Authority correcte par strate

3.Validité de construit — comportement du score par strate

Si la dimension Authority fait ce pour quoi elle a été conçue, les sites institutionnels (strate A) doivent voir leur score remonter (ou rester stable) et les sites jeunes / locaux (strate C) doivent voir leur score descendre. Le tableau ci-dessous présente le mouvement moyen v1 → v2 par strate, calculé sur le dernier run (sites sentinelles exclus).

StratumSitesMoy. v1Moy. v2Δ (v2 − v1)Moy. AuthorityMoy. taux cite
A · Institutionnel1049.250.7+1.566.994%
B · SaaS milieu de gamme1057.051.2-5.847.970%
C · Jeune / local954.745.1-9.628.393%

↑ Authority a remonté les sites institutionnels de 1.5 points en moyenne — exactement la direction recherchée pour cette dimension.

↓ Authority a fait baisser les sites jeunes / locaux de 9.6 points en moyenne — l'inflation qu'on visait à corriger.

4.Signal secondaire · Sonde de citation LLM

ρ(v1, citation)

-0.20

Score 5 dimensions historique

ρ(v2, citation)

-0.02

6 dimensions avec Authority · CI 95% [-0.38, 0.34]

Statut Phase 1

VALIDÉ

Δ = 0.18 · à interpréter avec la réserve juge unique

Note juge unique : avec un seul LLM et 5 prompts par site, citationRate n'a que 6 valeurs possibles (0/5 … 5/5), et le modèle sature à 100 % pour les sites qu'il connaît bien — notamment les marques françaises présentes dans ses données d'entraînement, indépendamment des signaux Authority (Wikipedia, PageRank, Tranco) majoritairement anglophones. Le Spearman est reporté par transparence mais ne peut pas valider indépendamment le score avec ce budget d'échantillonnage. Une Phase 2 multi-juges (plusieurs LLMs + métrique de rang pondéré) est le test empirique propre ; on publie Phase 1 en l'état plutôt que d'attendre.

5.Ce que la Phase 2 changerait

Trois changements refermeraient le gap empirique laissé par la Phase 1 : (a) deux juges LLM supplémentaires pour casser le biais mono-modèle, (b) un citationRate de position dans une liste (où la marque apparaît-elle dans un top-N ?) pour récupérer la variance perdue par saturation, (c) doubler le dataset à 60 sites avec plus de strate C internationale. La Phase 1 est publiée car la validité de construit ci-dessus tient indépendamment de ces changements — ils ne raffinent que le signal secondaire.

Run Phase 1 mis à jour 2026-05-14. Le benchmark est relancé chaque fois que la formule de score change matériellement ; les résultats sont versionnés et l'historique reste consultable sur demande.