README_ES.md
May 25, 2026 · View on GitHub
Apuntar. Iterar. Llegar.
Experimentación autónoma orientada a objetivos para Codex.
English · 🇨🇳 中文 · 🇯🇵 日本語 · 🇰🇷 한국어 · 🇫🇷 Français · 🇩🇪 Deutsch · 🇪🇸 Español · 🇧🇷 Português · 🇷🇺 Русский
La idea: dile a Codex qué quieres mejorar y vete. Modifica tu código, verifica el resultado, conserva o descarta, y repite. Vuelves a un registro de experimentos y un código mejor.
Inspirado en autoresearch de Karpathy, generalizado más allá de ML a todo lo que se pueda verificar mecánicamente: cobertura de tests, errores de tipos, latencia, advertencias de lint, hallazgos de seguridad, preparación de releases — si un comando puede determinar si mejoró, el bucle puede iterar sobre ello.
Inicio rápido
Important
Inicia Codex con Full Access:
codex --dangerously-bypass-approvals-and-sandbox
Úsalo antes de iniciar autoresearch para la experiencia más fluida en foreground y background.
# Instalar en Codex (recomendado)
$skill-installer install https://github.com/leo-lilinxiao/codex-autoresearch
Abre tu proyecto y adelante:
Tú: $codex-autoresearch
Quiero eliminar todos los tipos `any` de mi código TypeScript
Codex: Encontré 47 ocurrencias de `any` en src/**/*.ts.
Directorio Results: ./autoresearch-results/
Métrica: cantidad de `any` (actual: 47), dirección: menor
Verificación: conteo grep + tsc --noEmit como guard
Modo de ejecución: ¿foreground o background?
Tú: Background, go. Déjalo corriendo toda la noche.
Codex: Iniciando ejecución en segundo plano — línea base: 47. Iterando.
Para ejecuciones background, inicia Codex desde una sesión Full Access de confianza.
Cada mejora se acumula. Cada fallo se revierte. Todo queda registrado.
Opciones de copia manual, symlink y alcance de usuario en INSTALL.md. Manual completo en GUIDE.md.
Cómo funciona
Dices una frase → Codex analiza y confirma → Dices "go"
|
+--------------+--------------+
| |
foreground background
(sesión actual) (separado, toda la noche)
| |
+--------------+--------------+
|
v
+-------------------+
| El bucle |
| |
| modificar algo |
| trial commit |
| ejecutar verify |
| ¿mejoró? guardar |
| ¿empeoró? revert |
| registrar result.|
| repetir |
+-------------------+
Eso es todo. Eliges uno: foreground mantiene el bucle en tu sesión actual, background lo delega a un proceso separado para que puedas dormir. El mismo bucle en ambos casos, pero no se ejecutan a la vez.
Lo que dices vs lo que pasa
| Lo que dices | Lo que pasa |
|---|---|
| «Mejora mi cobertura de tests» | Itera hasta alcanzar el objetivo o ser interrumpido |
| «Arregla los 12 tests que fallan» | Repara uno por uno hasta que no quede ninguno |
| «¿Por qué la API devuelve 503?» | Rastrea la causa raíz con hipótesis falsificables |
| «¿Es seguro este código?» | Auditoría STRIDE + OWASP, cada hallazgo respaldado con código |
| «Listo para desplegar» | Verifica preparación, genera checklist, controla el lanzamiento |
| «Quiero optimizar pero no sé qué» | Analiza el repo, sugiere métricas, genera configuración |
Tras bambalinas, Codex mapea tu frase a uno de 7 modos (loop, plan, debug, fix, security, ship, exec). Nunca necesitas elegir uno.
Lo que Codex deduce automáticamente
No escribes configuración. Codex infiere todo a partir de tu frase y tu repositorio:
| Lo que necesita | Cómo lo obtiene | Ejemplo |
|---|---|---|
| Objetivo | Tu frase | «eliminar todos los tipos any» |
| Alcance | Escanea la estructura del repo | src/**/*.ts |
| Métrica | Propone según objetivo + herramientas | cantidad de any (actual: 47) |
| Dirección | Infiere de «mejorar» / «reducir» / «eliminar» | menor |
| Verificación | Asocia con las herramientas del repo | conteo grep + tsc --noEmit |
| Guard | Sugiere una comprobación de regresión que ya pasa en la línea base | npm test |
Antes de empezar, Codex siempre muestra lo que encontró y pide confirmación. Luego eliges foreground o background y dices «go». Por defecto, el directorio Results se queda en el contexto de arranque: si iniciaste Codex dentro de un repo git, la raíz de ese repo es el workspace root por defecto; si lo iniciaste fuera de un repo git, el directorio actual de arranque es el workspace root por defecto. Codex no debería ampliarlo silenciosamente a un directorio padre salvo que confirmes explícitamente un workspace multi-repo más amplio. El resumen de confirmación siempre debería mostrar el directorio Results elegido antes de lanzar.
Cuando se atasca
En lugar de reintentar a ciegas, el bucle escala:
| Disparador | Acción |
|---|---|
| 3 fallos consecutivos | REFINE — ajustar dentro de la estrategia actual |
| 5 fallos consecutivos | PIVOT — probar un enfoque fundamentalmente diferente |
| 2 PIVOTs sin progreso | Búsqueda web — buscar soluciones externas |
| 3 PIVOTs sin progreso | Detener — informar que se necesita intervención humana |
Un solo éxito reinicia todos los contadores.
Registro de resultados
Cada iteración se registra en autoresearch-results/results.tsv:
iteration commit metric delta status description
0 a1b2c3d 47 0 baseline initial any count
1 b2c3d4e 41 -6 keep replace any in auth module
2 - 49 +8 discard generic wrapper introduced new anys
3 d4e5f6g 38 -3 keep type-narrow API response handlers
Los experimentos fallidos se revierten en git pero permanecen en el registro. El registro es la verdadera pista de auditoría, mientras que autoresearch-results/state.json es la instantánea de reanudación.
Más funcionalidades
Detalles completos en GUIDE.md:
- Aprendizaje entre ejecuciones — las lecciones de ejecuciones pasadas orientan la generación futura de hipótesis
- Experimentos paralelos — prueba hasta 3 hipótesis simultáneamente mediante git worktrees
- Reanudación de sesión — las ejecuciones interrumpidas continúan desde el último estado consistente
- Modo CI/CD (
exec) — no interactivo, salida JSON, para pipelines de automatización - Verificación de doble puerta — verify (¿mejoró?) y guard (¿se rompió algo?) separados
FAQ
Solo hace cambios pequeños. ¿Puede intentar ideas más grandes? Por defecto el bucle favorece pasos pequeños y verificables — es intencional. Pero puede ir más grande: describe una hipótesis más amplia en tu prompt (ej: "reemplaza el mecanismo de attention por linear attention y ejecuta la evaluación completa"), y lo tratará como un solo experimento a verificar. El mejor uso: el humano define la dirección de investigación, el agente se encarga de la ejecución y análisis intensivos.
¿Es más para optimización de ingeniería o para investigación?
Es más fuerte cuando el objetivo y la métrica están claros — subir cobertura, reducir errores, bajar latencia. Si la dirección de investigación es incierta, usa primero el modo plan para explorar, luego cambia a loop cuando sepas qué medir. Piénsalo como colaboración humano-IA: tú aportas el criterio, el agente aporta la velocidad de iteración.
¿Cómo lo detengo? Foreground: interrumpe Codex. Background: $codex-autoresearch y pide que se detenga.
¿Puede reanudar tras una interrupción? Sí. Reanuda automáticamente desde autoresearch-results/state.json.
¿Cómo lo uso en CI? Mode: exec con codex exec. Toda la configuración por adelantado, salida JSON, códigos de salida 0/1/2.
Documentación
| Doc | Contenido |
|---|---|
| INSTALL.md | Skill installer, copia manual, instalación de usuario y symlink de desarrollo |
| GUIDE.md | Manual completo: modos, campos de configuración, modelo de seguridad, uso avanzado |
| EXAMPLES.md | Recetas por dominio: cobertura, rendimiento, tipos, seguridad, etc. |
Agradecimientos
Construido sobre ideas de autoresearch de Karpathy. La plataforma Codex skills es de OpenAI.
Star History
Licencia
MIT — ver LICENSE.