
LLM evaluation en dominios regulados: más allá de accuracy
Cuando una respuesta incorrecta de tu LLM impacta una auditoría FDA, accuracy no alcanza. Contamos cómo evaluamos LLMs y agents en Darwin — golden sets, LLM-as-judge, regression detection y guardrails numéricos.
