Independent Project Not affiliated with, sponsored by, or endorsed by the Watch Tower Bible and Tract Society or Jehovah's Witnesses.
jw-agent-toolkit
ES

Calibrar un golden case para jw eval

Tiempo estimado: 10 minutos Requisitos: jw-eval (F22). Slug URL: /cookbook/10-calibrate-golden-case

¿Qué construyes?

Crear un YAML L1/L2/L3 que el harness de Fase 22 (jw eval) usa para detectar regresiones doctrinales antes de cada merge.

Código (copy-pasteable)

# test
# Validate that a representative golden case YAML loads correctly.
import yaml

golden_yaml = """
id: t-001-trinity
layer: l1
agent: apologetics
input:
  question: "¿Es bíblica la doctrina de la Trinidad?"
  language: es
expected:
  must_cite:
    - "https://wol.jw.org/es/wol/d/r4/lp-s/1102004110"
  forbidden_claims:
    - "Trinity is biblical"
"""

case = yaml.safe_load(golden_yaml)
assert case["layer"] == "l1"
assert case["agent"] == "apologetics"
assert "must_cite" in case["expected"]

Por qué funciona

Tres capas:

  • L1: ¿cita correcta? (URL canónica en must_cite).
  • L2: ¿passage existe? (cassette HTTP comparado con snapshot).
  • L3: ¿síntesis correcta? (NLI embeddings, threshold 0.78).

Cada layer aísla un tipo de regresión, así sabes exactamente qué se rompió.

Variaciones

  • forbidden_claims para asegurar que el agente NO afirma cosas erróneas.
  • metric: ndcg10 para queries de recall (cf. F45).
  • agent_filter: --filter-agent=apologetics para correr solo un agente.

Próximo paso

11 — Browser extension WOL

Edit this page on docs/cookbook/10-calibrate-golden-case.md