Antigravity 2.0 vs Codex: misma app, mismo prompt… ¿cuál es mejor?

Cuando dos herramientas prometen ayudarte a crear apps con IA, la comparación útil no es mirar la landing, ni la lista de features, ni el marketing. La comparación útil es mucho más simple: darles exactamente el mismo trabajo, con el mismo prompt, desde cero, y ver qué sale.

Eso fue justo lo que hice con Antigravity 2.0 y Codex. La idea fue construir la misma aplicación en ambos: un dashboard para gestionar comentarios de YouTube, clasificarlos por sentimiento, detectar preguntas, críticas u ofensas, y dejar todo listo para conectarlo con la API real de YouTube.

La prueba estuvo pensada para que fuera lo más justa posible:

Mismo tipo de cuenta en ambas herramientas.
Carpetas separadas para cada proyecto.
Mismo prompt.
Configuraciones comparables.
La misma meta funcional para los dos lados.

Y algo importante: no usé un prompt hiper elaborado. De hecho, fui bastante abierto a propósito. Quería ver cuánto resolvía cada modelo por su cuenta, qué tanto improvisaba bien y cuál entendía mejor la intención del proyecto sin tenerlo todo mascado.

Tabla de contenido

⚙️ Cómo planteé la prueba
🧠 El prompt que usé para ambos
🔍 Primera diferencia real: cómo entienden el problema
🛠️ Configuración de modelos y por qué no hace falta ir “a tope”
🎨 El primer resultado: dos apps distintas con el mismo pedido
🧪 Iterar también es parte de la comparación
🔐 Conectando la app a la API real de YouTube
🧾 El detalle que separa una demo bonita de una herramienta útil
💬 ¿Se puede responder comentarios directamente desde la app?
🎯 ¿Cuál de los dos lo hizo mejor?
📦 Mi impresión real de uso: para qué uso cada uno
🧭 Entonces, ¿cuál te conviene más?
🚀 Lo que esta comparación deja claro sobre crear apps con IA
🏁 Conclusión final

⚙️ Cómo planteé la prueba

Primero preparé dos carpetas distintas, una para Codex y otra para Antigravity. La idea era evitar contaminación entre proyectos y trabajar en igualdad de condiciones. Ambos parten de una lógica muy parecida: proyectos basados en carpetas locales, con archivos que viven directamente en tu máquina.

Ese detalle no es menor. Durante mucho tiempo, una parte importante de la gente que programa con ayuda de IA quería justo eso: menos magia opaca y más trabajo real sobre archivos locales. Tanto Codex como Antigravity terminaron convergiendo hacia ahí.

También hay un tema interesante de interfaz. Personalmente, vengo del mundo más clásico de programación, así que una interfaz tipo editor tradicional me resulta natural. Pero la verdad es que el enfoque más orientado a conversaciones y proyectos también tiene ventajas, sobre todo cuando estás saltando rápido entre varias ideas o prototipos.

Y aquí ya aparece una primera conclusión importante: estas herramientas no compiten solo por “quién programa mejor”, sino por qué flujo de trabajo te encaja más.

🧠 El prompt que usé para ambos

La app que pedí fue esta, en esencia:

Un dashboard para ver comentarios que llegan a mi canal de YouTube.
Clasificación de comentarios por sentimiento.
Detección de comentarios positivos, negativos, preguntas y críticas.
Filtrado de contenido ofensivo.
Una interfaz que me ayude a responder más rápido.
Que la estructura se base en los datos que devuelve la API de YouTube, para luego poder conectar la API real.
Todo en español.

No definí arquitectura, no definí stack en detalle, no definí diseño, no di un esquema de componentes ni un mapa completo de pantallas. Eso fue deliberado.

En condiciones normales, yo suelo trabajar con prompts bastante más completos. Incluso tengo una herramienta para eso, PrimeraApp, que ayuda a convertir una idea vaga en un prompt inicial mucho mejor estructurado. Tiene una interfaz donde puedes conversar con el agente para aterrizar el proyecto, y eso ahorra bastante tiempo cuando quieres que la IA arranque con contexto sólido.

Pero aquí quería precisamente lo contrario: menos guía, más autonomía del modelo.

Pantalla de Codex mostrando el prompt para crear un dashboard de comentarios de YouTube con clasificación y filtros

🔍 Primera diferencia real: cómo entienden el problema

Apenas lancé ambos proyectos, apareció una diferencia muy interesante.

Codex hizo algo que me gustó bastante: detectó que yo había mencionado la API de YouTube y fue a buscar documentación oficial para entender los campos reales que devuelve. No se quedó solo con una interpretación vaga del requisito. Fue a aterrizarlo contra la estructura oficial del YouTube Data API.

Eso es una señal potente por dos motivos:

No se limita a generar una demo bonita.
Intenta dejar la app más alineada con una integración real.

Con Antigravity pasó algo distinto. Primero elaboró un plan bastante completo. En su caso, como corre sobre Gemini, tiene sentido pensar que “entiende” bastante bien el ecosistema Google y probablemente no necesitó buscar tanto para saber cómo funciona YouTube API. El plan también se veía bien armado y contemplaba la integración.

Entonces, en esta etapa inicial, mi sensación fue esta:

Codex se comportó como un asistente que verifica y aterriza.
Antigravity se comportó como un asistente que organiza y estructura antes de ejecutar.

No diría que uno estuvo mal y el otro bien. Son estilos distintos. Y dependiendo de cómo trabajes, eso puede pesarte mucho.

🛠️ Configuración de modelos y por qué no hace falta ir “a tope”

Un detalle práctico que salió durante la prueba y que vale la pena comentar es el nivel de “pensamiento” o intensidad del modelo.

En Codex dejé una configuración media de GPT 5.5. En Antigravity usé Gemini 3.5 Flash, también en un punto medio. Y aquí mi opinión es bastante clara: ir al modo más alto casi nunca me compensa.

Sí, a veces el modelo tarda más y no necesariamente el resultado mejora en la misma proporción. Para este tipo de trabajos, sobre todo cuando estás iterando apps, suelo recomendar moverte entre niveles bajos, medios o altos razonables, pero no asumir que “máximo” significa automáticamente “mejor”.

Además, eso también suele impactar en consumo de tokens o en cuota disponible, algo muy importante cuando trabajas todos los días con estas herramientas.

🎨 El primer resultado: dos apps distintas con el mismo pedido

Cuando ambas terminaron de generar la primera versión, quedó clarísimo algo que me encanta de estas pruebas: el mismo prompt no produce la misma app.

Codex entregó una interfaz en modo claro. Antigravity se fue por modo oscuro. Ya desde lo visual había personalidad distinta.

Pantalla de Antigravity con API key y Channel ID y dashboard de comentarios de YouTube con filtros

Pero más allá del color, lo importante era la funcionalidad.

Lo que entregó Antigravity al primer intento

Antigravity montó un dashboard con estadísticas del canal y varias categorías de clasificación. La idea estaba bien. Se notaba que había intentado construir una bandeja para trabajar comentarios por tipo de sentimiento y estado.

El problema fue que los filtros no estaban funcionando bien. Aparecía la estructura, aparecían estados como “todos”, “respondidos” o “pendientes”, pero al aplicarlos los resultados no eran consistentes. Es decir, visualmente iba bien, pero funcionalmente todavía no estaba fino.

Lo que entregó Codex al primer intento

Codex me sorprendió por otro lado. Dio un paso más hacia la integración real: la app ya pedía API key y channel ID. O sea, no se quedó únicamente en datos de demo. Construyó una interfaz que sugería que, conectando credenciales, podía empezar a trabajar con datos reales.

Además, incluyó datos simulados y una idea bastante interesante: respuestas sugeridas para comentarios. Eso encajaba muy bien con el objetivo de responder más rápido desde un panel centralizado.

Mi lectura en ese momento fue sencilla:

Antigravity salió mejor parado en presentación inicial.
Codex salió mejor parado en intención funcional.

🧪 Iterar también es parte de la comparación

Una comparación real entre herramientas de desarrollo con IA no puede quedarse en “qué hicieron al primer disparo”. En la práctica, tú no trabajas así. Tú les pides cambios, las corriges, las empujas al resultado que quieres.

Entonces hice lo lógico: empecé a iterar sobre ambas.

A Antigravity le pedí dos cosas:

Arreglar todos los filtros.
Dejar lista la entrada de API key y channel ID desde la interfaz, con campos protegidos tipo password para poder probar.

A Codex le pedí algo distinto:

Agregar modo oscuro.
Confirmar que realmente estaba listo para funcionar solo pasando API key y channel ID.

Antigravity mostrando Implementation Plan, Proposed Changes y estructura de archivos para el dashboard de comentarios de YouTube

Y aquí la prueba se puso buena, porque ambos respondieron bastante bien a la segunda vuelta.

Antigravity mejoró rápido

Después del ajuste, Antigravity quedó con una separación más clara entre modo demo y modo API. Eso me gustó porque hace más fácil probar sin mezclar datos ficticios con datos reales.

Además, los filtros empezaron a funcionar correctamente. Ya podías moverte entre categorías y ver cambios consistentes en la bandeja.

Codex se adaptó sin drama

Codex activó el modo oscuro sin complicaciones y confirmó que la integración básica estaba lista. En otras palabras, no hubo que pelearse con la herramienta para llegar al punto de prueba real.

Eso también importa mucho. Hay herramientas que generan bastante, pero al pedirles un cambio pequeño empiezan a romper otras cosas. Aquí, por suerte, ambas mantuvieron bastante estabilidad.

🔐 Conectando la app a la API real de YouTube

La parte más importante de toda la comparación era esta: salir de la demo y conectar datos reales.

Para hacerlo, usé un proyecto en Google Cloud y una API key de YouTube Data API. Sacar esa clave es relativamente directo desde la gestión de credenciales dentro de Google Cloud, y además Google suele ofrecer créditos gratuitos iniciales que vale la pena aprovechar si estás probando este tipo de integraciones.

Una vez con la API key en mano, tocaba pegar:

La clave de API.
El channel ID.

Google Cloud Credenciales mostrando una clave de API para YouTube Data API v3

Y aquí vino un punto muy fuerte a favor de ambos: los dos lograron cargar comentarios reales.

No estamos hablando ya de mock data bonita para la captura. Estamos hablando de comentarios reales del canal, con información útil para navegar y clasificar.

Lo que hizo bien Codex con datos reales

Codex conectó a la primera. Cargó comentarios reales y mostró que la base funcional estaba bien orientada. Eso para mí vale muchísimo, porque es la diferencia entre una app “que parece una app” y una app que realmente empieza a tocar datos útiles.

También identificó a qué video pertenecía cada comentario. Eso es clave en este tipo de dashboard, porque responder un comentario sin contexto es una receta para perder tiempo.

Si alguien comenta “esto no me funcionó”, necesito saber en cuál video, no solo leer la frase aislada.

Lo que hizo bien Antigravity con datos reales

Antigravity también cargó bien los comentarios y, además, mostró correctamente miniaturas o referencias visuales de algunos videos. En la navegación de comentarios, eso ayuda mucho más de lo que parece.

La gran ventaja aquí fue el contexto visual. Si el panel te enseña no solo el comentario, sino también la miniatura o el título del video, entiendes más rápido la situación y respondes con más criterio.

Dashboard de comentarios de YouTube con video relacionado, campos de clasificación y respuesta sugerida

🧾 El detalle que separa una demo bonita de una herramienta útil

Hay una diferencia brutal entre una app que “se ve bien” y una app que realmente te ahorra tiempo en el trabajo diario. Y en esta comparación, esa diferencia apareció en un detalle concreto: el contexto del comentario.

En uno de los flujos, al abrir el detalle de un comentario, aparecía solo el código o referencia del video. Eso sirve muy poco. Técnicamente tienes el dato, sí, pero operativamente no te ayuda tanto.

Lo útil es otra cosa:

Ver el título del video.
Ver la miniatura.
Tener idealmente un enlace directo al contenido.

Porque así conectas el comentario con el tema que estaba tratando el video. Eso es lo que te permite responder mejor y más rápido.

Por eso pedí explícitamente ese ajuste: que al leer un comentario en la pantalla de detalle también se mostrara el video al que pertenece, con información útil y no solo un identificador crudo.

Ese tipo de refinamiento es donde se ve si una herramienta entiende bien el producto o si solo está completando requisitos uno por uno.

💬 ¿Se puede responder comentarios directamente desde la app?

Aquí apareció una limitación importante y muy práctica.

Ambas herramientas podían orientarse hacia una interfaz que facilitara la respuesta. De hecho:

Antigravity ofrecía una experiencia tipo copiar y pegar una respuesta sugerida.
Codex planteaba respuestas rápidas o prearmadas dentro del panel.

Detalle de comentario en dashboard con video relacionado, campos de clasificación y respuesta sugerida

Eso está bien. Pero la gran pregunta era: ¿se puede responder realmente un comentario directamente desde la app solo con una API key?

La respuesta es no.

Y esto es importante dejarlo claro porque es una limitación de la integración, no un fallo del dashboard. Leer datos y modificar datos no son la misma cosa.

Para responder comentarios en YouTube no basta con una API key. Hace falta un flujo de autenticación más completo, concretamente OAuth 2.0 con permisos adecuados, porque ya estás haciendo una acción de escritura sobre datos del usuario o del canal.

Codex lo confirmó correctamente al revisar la documentación oficial. Esa validación me pareció muy buena. En lugar de inventar una función simulada como si fuese real, dejó claro que se necesita otro tipo de permiso.

Entonces, si estás pensando en construir una herramienta de gestión de comentarios para YouTube, quédate con esto:

Con API key: puedes leer información y montar paneles útiles.
Con OAuth 2.0: puedes aspirar a responder o modificar datos.

Para la prueba, no hacía falta meterse en todo ese flujo porque el foco estaba en comparar la generación de la app. Pero sí era importante identificar el límite real.

🎯 ¿Cuál de los dos lo hizo mejor?

La respuesta honesta es la de siempre: depende de qué valoras más.

Pero como igual hay que mojarse, te dejo una lectura bastante clara después de la prueba.

Cuándo me gustó más Codex

Cuando aterrizó rápido la integración con la API real.
Cuando mostró iniciativa para revisar documentación oficial.
Cuando dio señales de estar más cerca de una app lista para conectar.
Cuando planteó la lógica de respuestas sugeridas dentro del flujo.

Si tu criterio principal es llegar antes a algo funcionalmente serio, Codex me pareció muy competitivo.

Cuándo me gustó más Antigravity

Cuando organizó el proyecto de forma clara.
Cuando la interfaz quedó visualmente muy usable.
Cuando el flujo entre modo demo y modo API se volvió cómodo.
Cuando mostró bien el contexto visual de los comentarios y videos.

Si valoras muchísimo la experiencia de trabajo creando apps y has venido usando Gemini o el ecosistema Google, Antigravity se siente muy sólido.

Dashboard de comentarios de YouTube con video relacionado, detalle del comentario y opciones de responder con OAuth

📦 Mi impresión real de uso: para qué uso cada uno

Aunque en esta prueba puntual me gustaron cosas de ambos, yo mismo he notado que los uso de forma un poco distinta.

Antigravity lo he usado mucho más para construir websites y aplicaciones. Históricamente me ha funcionado muy bien para ese tipo de tareas, en parte también por cómo se comporta con ciertas cuotas y por lo cómodo que me resulta en flujos de prototipado.

Codex, en cambio, muchas veces lo he usado más como asistente global, casi como una especie de copiloto generalista para trabajar sobre proyectos, revisar cosas, iterar o resolver tareas amplias dentro del entorno.

Eso no significa que uno no pueda hacer lo del otro. De hecho, la nueva versión de Antigravity claramente se acerca bastante al enfoque de Codex. Hay una inspiración evidente en cómo se organizan proyectos, carpetas y archivos locales.

Y en el fondo eso es buena noticia. Significa que las herramientas están convergiendo hacia lo que realmente quería la gente: trabajar con proyectos reales, sobre archivos reales, dentro de un flujo cómodo y potente.

🧭 Entonces, ¿cuál te conviene más?

Si tuviera que resumirlo de forma práctica, diría algo así:

Elige Codex si quieres:

Un asistente con muy buena iniciativa técnica.
Más orientación a integración real desde el principio.
Un flujo que te acerque rápido a una app conectable.
Una sensación de mayor “seriedad funcional” desde el arranque.

Elige Antigravity 2.0 si quieres:

Un entorno muy cómodo para construir apps y web apps.
Un flujo de proyectos claro y ordenado.
Una experiencia visual agradable para iterar interfaces.
Un ecosistema muy alineado con Gemini y herramientas de Google.

Si eres de los que cambia mucho entre proyectos, hace prototipos rápidos y valora bastante el flujo visual, Antigravity puede encajarte muy bien.

Si eres de los que quiere que la IA tome más iniciativa técnica, valide cosas y te deje el proyecto mejor aterrizado contra APIs o documentación real, Codex puede darte una ventaja muy concreta.

🚀 Lo que esta comparación deja claro sobre crear apps con IA

Más allá de cuál gane por poco o por mucho, hay algo que para mí es lo más interesante de todo esto: ya estamos en un punto donde ambas herramientas pueden generar una base bastante seria para una app real con un prompt relativamente simple.

Y eso cambia por completo la forma de trabajar.

Ya no se trata solo de “hacer una demo bonita en segundos”. Se trata de:

Explorar ideas de producto más rápido.
Probar integraciones reales sin arrancar desde cero.
Iterar sobre interfaces funcionales.
Detectar límites técnicos pronto, como el caso de OAuth para responder comentarios.
Llegar antes a algo que sí puedes usar o seguir desarrollando.

Si además quieres mejorar cómo defines tus proyectos antes de soltárselos a la IA, te recomiendo probar PrimeraApp, porque precisamente ayuda a resolver ese primer cuello de botella: pasar de una idea difusa a un prompt inicial mucho mejor diseñado.

Y si te interesa aprender este tipo de flujo de trabajo con más profundidad, también puedes echar un vistazo a la comunidad, donde se trabaja bastante este enfoque de crear apps con IA de manera práctica.

Para publicar o desplegar este tipo de proyectos, también dejé recomendado este hosting, que puede venir bien cuando ya quieres sacar la app del entorno local y ponerla a vivir en internet.

🏁 Conclusión final

Después de poner a Antigravity 2.0 y Codex a construir exactamente la misma app con el mismo prompt, mi sensación es muy simple: los dos son muy buenos, pero no brillan por lo mismo.

Codex me dio una sensación más fuerte de “esto ya quiere funcionar de verdad”. Antigravity me dio una sensación más fuerte de “aquí construir apps se siente muy cómodo”.

Y en el trabajo real, eso importa muchísimo.

No elegiría uno solo por una lista de especificaciones. Lo elegiría por cómo piensas, cómo iteras y qué tipo de ayuda esperas de la IA. Si te gusta que el sistema tome iniciativa técnica y aterrice detalles, Codex destaca. Si te gusta un flujo muy agradable para crear apps, moverte entre proyectos y trabajar visualmente, Antigravity tiene muchísimo sentido.

La buena noticia es que ya no estamos comparando una herramienta buena contra otra floja. Estamos comparando dos opciones potentes, capaces de llevar una idea bastante lejos en poco tiempo.

Y eso, honestamente, ya es una locura.