README_ES.md

May 25, 2026 · View on GitHub

Codex Autoresearch

Apuntar. Iterar. Llegar.

Experimentación autónoma orientada a objetivos para Codex.

Codex Skill GitHub Stars MIT License

English · 🇨🇳 中文 · 🇯🇵 日本語 · 🇰🇷 한국어 · 🇫🇷 Français · 🇩🇪 Deutsch · 🇪🇸 Español · 🇧🇷 Português · 🇷🇺 Русский


La idea: dile a Codex qué quieres mejorar y vete. Modifica tu código, verifica el resultado, conserva o descarta, y repite. Vuelves a un registro de experimentos y un código mejor.

Inspirado en autoresearch de Karpathy, generalizado más allá de ML a todo lo que se pueda verificar mecánicamente: cobertura de tests, errores de tipos, latencia, advertencias de lint, hallazgos de seguridad, preparación de releases — si un comando puede determinar si mejoró, el bucle puede iterar sobre ello.

Inicio rápido

Important

Inicia Codex con Full Access:

codex --dangerously-bypass-approvals-and-sandbox

Úsalo antes de iniciar autoresearch para la experiencia más fluida en foreground y background.

# Instalar en Codex (recomendado)
$skill-installer install https://github.com/leo-lilinxiao/codex-autoresearch

Abre tu proyecto y adelante:

Tú:    $codex-autoresearch
       Quiero eliminar todos los tipos `any` de mi código TypeScript

Codex: Encontré 47 ocurrencias de `any` en src/**/*.ts.
       Directorio Results: ./autoresearch-results/
       Métrica: cantidad de `any` (actual: 47), dirección: menor
       Verificación: conteo grep + tsc --noEmit como guard
       Modo de ejecución: ¿foreground o background?

Tú:    Background, go. Déjalo corriendo toda la noche.

Codex: Iniciando ejecución en segundo plano — línea base: 47. Iterando.

Para ejecuciones background, inicia Codex desde una sesión Full Access de confianza.

Cada mejora se acumula. Cada fallo se revierte. Todo queda registrado.

Opciones de copia manual, symlink y alcance de usuario en INSTALL.md. Manual completo en GUIDE.md.

Cómo funciona

Dices una frase  →  Codex analiza y confirma  →  Dices "go"
                                                      |
                                       +--------------+--------------+
                                       |                             |
                                  foreground                    background
                                (sesión actual)             (separado, toda la noche)
                                       |                             |
                                       +--------------+--------------+
                                                      |
                                                      v
                                            +-------------------+
                                            |    El bucle       |
                                            |                   |
                                            |  modificar algo   |
                                            |  trial commit     |
                                            |  ejecutar verify  |
                                            |  ¿mejoró? guardar |
                                            |  ¿empeoró? revert |
                                            |  registrar result.|
                                            |  repetir          |
                                            +-------------------+

Eso es todo. Eliges uno: foreground mantiene el bucle en tu sesión actual, background lo delega a un proceso separado para que puedas dormir. El mismo bucle en ambos casos, pero no se ejecutan a la vez.

Lo que dices vs lo que pasa

Lo que dicesLo que pasa
«Mejora mi cobertura de tests»Itera hasta alcanzar el objetivo o ser interrumpido
«Arregla los 12 tests que fallan»Repara uno por uno hasta que no quede ninguno
«¿Por qué la API devuelve 503?»Rastrea la causa raíz con hipótesis falsificables
«¿Es seguro este código?»Auditoría STRIDE + OWASP, cada hallazgo respaldado con código
«Listo para desplegar»Verifica preparación, genera checklist, controla el lanzamiento
«Quiero optimizar pero no sé qué»Analiza el repo, sugiere métricas, genera configuración

Tras bambalinas, Codex mapea tu frase a uno de 7 modos (loop, plan, debug, fix, security, ship, exec). Nunca necesitas elegir uno.

Lo que Codex deduce automáticamente

No escribes configuración. Codex infiere todo a partir de tu frase y tu repositorio:

Lo que necesitaCómo lo obtieneEjemplo
ObjetivoTu frase«eliminar todos los tipos any»
AlcanceEscanea la estructura del reposrc/**/*.ts
MétricaPropone según objetivo + herramientascantidad de any (actual: 47)
DirecciónInfiere de «mejorar» / «reducir» / «eliminar»menor
VerificaciónAsocia con las herramientas del repoconteo grep + tsc --noEmit
GuardSugiere una comprobación de regresión que ya pasa en la línea basenpm test

Antes de empezar, Codex siempre muestra lo que encontró y pide confirmación. Luego eliges foreground o background y dices «go». Por defecto, el directorio Results se queda en el contexto de arranque: si iniciaste Codex dentro de un repo git, la raíz de ese repo es el workspace root por defecto; si lo iniciaste fuera de un repo git, el directorio actual de arranque es el workspace root por defecto. Codex no debería ampliarlo silenciosamente a un directorio padre salvo que confirmes explícitamente un workspace multi-repo más amplio. El resumen de confirmación siempre debería mostrar el directorio Results elegido antes de lanzar.

Cuando se atasca

En lugar de reintentar a ciegas, el bucle escala:

DisparadorAcción
3 fallos consecutivosREFINE — ajustar dentro de la estrategia actual
5 fallos consecutivosPIVOT — probar un enfoque fundamentalmente diferente
2 PIVOTs sin progresoBúsqueda web — buscar soluciones externas
3 PIVOTs sin progresoDetener — informar que se necesita intervención humana

Un solo éxito reinicia todos los contadores.

Registro de resultados

Cada iteración se registra en autoresearch-results/results.tsv:

iteration  commit   metric  delta   status    description
0          a1b2c3d  47      0       baseline  initial any count
1          b2c3d4e  41      -6      keep      replace any in auth module
2          -        49      +8      discard   generic wrapper introduced new anys
3          d4e5f6g  38      -3      keep      type-narrow API response handlers

Los experimentos fallidos se revierten en git pero permanecen en el registro. El registro es la verdadera pista de auditoría, mientras que autoresearch-results/state.json es la instantánea de reanudación.

Más funcionalidades

Detalles completos en GUIDE.md:

  • Aprendizaje entre ejecuciones — las lecciones de ejecuciones pasadas orientan la generación futura de hipótesis
  • Experimentos paralelos — prueba hasta 3 hipótesis simultáneamente mediante git worktrees
  • Reanudación de sesión — las ejecuciones interrumpidas continúan desde el último estado consistente
  • Modo CI/CD (exec) — no interactivo, salida JSON, para pipelines de automatización
  • Verificación de doble puerta — verify (¿mejoró?) y guard (¿se rompió algo?) separados

FAQ

Solo hace cambios pequeños. ¿Puede intentar ideas más grandes? Por defecto el bucle favorece pasos pequeños y verificables — es intencional. Pero puede ir más grande: describe una hipótesis más amplia en tu prompt (ej: "reemplaza el mecanismo de attention por linear attention y ejecuta la evaluación completa"), y lo tratará como un solo experimento a verificar. El mejor uso: el humano define la dirección de investigación, el agente se encarga de la ejecución y análisis intensivos.

¿Es más para optimización de ingeniería o para investigación? Es más fuerte cuando el objetivo y la métrica están claros — subir cobertura, reducir errores, bajar latencia. Si la dirección de investigación es incierta, usa primero el modo plan para explorar, luego cambia a loop cuando sepas qué medir. Piénsalo como colaboración humano-IA: tú aportas el criterio, el agente aporta la velocidad de iteración.

¿Cómo lo detengo? Foreground: interrumpe Codex. Background: $codex-autoresearch y pide que se detenga.

¿Puede reanudar tras una interrupción? Sí. Reanuda automáticamente desde autoresearch-results/state.json.

¿Cómo lo uso en CI? Mode: exec con codex exec. Toda la configuración por adelantado, salida JSON, códigos de salida 0/1/2.

Documentación

DocContenido
INSTALL.mdSkill installer, copia manual, instalación de usuario y symlink de desarrollo
GUIDE.mdManual completo: modos, campos de configuración, modelo de seguridad, uso avanzado
EXAMPLES.mdRecetas por dominio: cobertura, rendimiento, tipos, seguridad, etc.

Agradecimientos

Construido sobre ideas de autoresearch de Karpathy. La plataforma Codex skills es de OpenAI.

Star History

Star History Chart

Licencia

MIT — ver LICENSE.