Fase 22
Eval doctrinal con regresión
Red de seguridad que mide cada cambio
Suite de tres capas (estructural · citas · semántico) con 47 golden cases. Convierte el riesgo de alucinación doctrinal en métrica auditable que bloquea PRs. Es la pieza que protege a las otras 10.
Qué se entregó
- Paquete nuevo packages/jw-eval con Suite + GoldenCase + LayerResult.
- L1 estructural: contract regression sobre 6 agentes — sin red, sin LLM, bloqueante en CI.
- L2 citas: modo snapshot offline (siempre activo) + modo live weekly (abre issues de drift).
- L3 semántico: embeddings (sentence-transformers) + escalada LLM (Ollama/Claude/OpenAI vía JW_EVAL_LLM).
- 47 golden cases (25 L1 + 13 L2 + 9 L3) cubriendo apologetics, verse_explainer, study_conductor, life_topics y más.
- CLI `jw eval`, herramienta MCP `run_eval_suite`, 3 jobs CI nuevos (fast / weekly / nightly).
Pendiente / siguiente PR
- Construir los 12 snapshots HTML de wol.jw.org con `build_eval_snapshots.py` (requiere red).
- Bot-comment de reporte markdown en PRs (existe el artifact; falta el comment hook).