IA y productividad

IA y productividad: ¿Qué tan buena es realmente la IA en el trabajo profesional?

¿Es la inteligencia artificial realmente capaz de realizar trabajos complejos de oficina, o es solo una exageración? El debate sobre cómo la IA afectará al mercado laboral es constante, pero hasta ahora ha sido difícil medir su verdadero potencial con precisión. Las pruebas académicas tradicionales no logran capturar la complejidad, el matiz y el valor económico del trabajo profesional real.

Para resolver este problema, un equipo de OpenAI ha desarrollado GDPval, un nuevo y riguroso punto de referencia. Frente a los estándares académicos que miden la inteligencia de la IA en un vacío, el estudio realizado por OpenAI, GDPval la mide en la pràctica: en tareas desordenadas, multimodales y subjetivas que definen el trabajo de alto valor. A diferencia de los exámenes estandarizados, utiliza tareas auténticas de profesionales con un promedio de 14 años de experiencia en 44 ocupaciones diferentes, desde finanzas y derecho hasta sanidad y diseño. Este método ofrece una visión sin precedentes de lo que los modelos de IA de última generación pueden hacer hoy.

Los resultados son sorprendentes y, en algunos casos, contraintuitivos. Este artículo destila las conclusiones más importantes del estudio para ofrecer una imagen clara de dónde se encuentra la IA y hacia dónde se dirige en el mundo profesional.

Las 5 claves del estudio

1. La IA de frontera ya está alcanzando el nivel de los expertos humanos

El hallazgo más impactante del estudio es que los modelos de IA más avanzados se están acercando a la paridad con los expertos de la industria en cuanto a la calidad de su trabajo. En las comparaciones directas, el modelo Claude Opus 4.1 fue calificado como mejor o igual que un profesional humano en el 47.6% de las entregas, lo que significa que en casi la mitad de las tareas complejas, el resultado de la IA fue indistinguible o superior al de un profesional con años de experiencia.

Este hito es significativo porque no se trata de resolver acertijos, sino de abordar proyectos de una dificultad sostenida (long-horizon difficulty). Las tareas evaluadas requerían un promedio de 7 horas de trabajo experto para ser completadas, y algunas se extendían durante semanas. Hasta ahora, este tipo de trabajo complejo y multifacético en sectores como las finanzas, el derecho o la sanidad había sido un dominio exclusivamente humano. Además, el estudio muestra que la calidad del rendimiento de la IA está mejorando de forma aproximadamente lineal con el tiempo, lo que sugiere que esta tendencia continuará.

2. Las IAs tienen “personalidades”: una destaca en estética, otra en precisión

No todos los modelos de IA son iguales, y sus fortalezas varían de formas interesantes. El benchmark reveló una distinción clave entre los principales competidores:

  • Claude Opus 4.1 sobresalió en estética, como el formato de documentos y el diseño de diapositivas.
  • GPT-5 fue superior en precisión, destacando en seguir instrucciones cuidadosamente y realizar cálculos correctos.

Este hallazgo sugiere que el futuro del trabajo con IA podría no centrarse en encontrar “la mejor” IA en general, sino en elegir la herramienta adecuada para la tarea específica. Esto nos lleva un paso más allá del modelo de colaboración humano-IA hacia un posible flujo de trabajo “multi-IA”. Un experto humano podría actuar como un director de orquesta, utilizando a Claude para estructurar una presentación visualmente atractiva y luego a GPT-5 para poblarla con datos precisos y cálculos verificados.

3. El mayor fallo de la IA no es la falta de inteligencia, sino no seguir instrucciones

Resulta contraintuitivo, pero el motivo más común por el que los entregables de la IA fueron rechazados por los expertos no fue la falta de conocimiento o los errores de cálculo. El principal problema, especialmente para los modelos Claude, Grok y Gemini, fue no seguir completamente las instrucciones.

A menudo pensamos en las máquinas como ejecutores perfectos de órdenes, pero este estudio demuestra que entender y adherirse rigurosamente a instrucciones humanas complejas sigue siendo un desafío fundamental para la IA. En contraste, el principal fallo de GPT-5 no fue el seguimiento de instrucciones, sino los errores de formato, lo que refuerza su perfil de “precisión pero menos pulido estéticamente”. Esto sugiere que la habilidad humana más crítica en un entorno laboral impulsado por la IA podría no ser la ejecución de la tarea en sí, sino la capacidad de articularla con una precisión casi maquinal, un desafío que el propio estudio aborda más adelante.

4. La verdadera ganancia económica no está en el reemplazo, sino en la colaboración

Aquí reside una de las revelaciones más importantes del estudio: la enorme diferencia entre la potencia bruta de la IA y su utilidad práctica. Si medimos la velocidad “ingenua” de generación, un modelo como GPT-5 es asombrosamente rápido, produciendo un borrador 90 veces más rápido que un experto humano.

Sin embargo, en un entorno profesional, esa velocidad es una ilusión. Cuando se incluye el tiempo indispensable de revisión y corrección por parte de un experto, la ganancia real es mucho más modesta. En un escenario realista donde un profesional “intenta usar la IA una vez y luego corrige el resultado”, el ahorro de tiempo con GPT-5 fue de solo 1.12 veces. La conclusión es clara: la IA funciona mejor no como un sustituto, sino como un asistente que acelera el trabajo de los expertos, reduciendo costes y tiempo, pero manteniendo la supervisión y la calidad garantizadas por una persona.

5. Podemos mejorar drásticamente el rendimiento de la IA con mejores instrucciones

Una de las conclusiones más optimistas del estudio es que no todo el progreso depende de construir modelos más grandes y potentes. Una parte significativa de la mejora puede venir de nuestra habilidad para comunicarnos mejor con la IA.

El equipo de OpenAI realizó un experimento de “prompt tuning” con GPT-5, donde crearon una instrucción que animaba al modelo a ser más riguroso, a comprobar sus propios entregables y a evitar errores de formato comunes. Estas simples mejoras en las instrucciones aumentaron la tasa de victorias del modelo en 5 puntos porcentuales y redujeron drásticamente los errores de formato. Este hallazgo desplaza el foco de una espera pasiva por mejores modelos a una búsqueda activa de una mejor comunicación. El cuello de botella definitivo para el rendimiento de la IA en el futuro cercano podría no ser el silicio, sino el lenguaje humano.

Conclusión: un nuevo mapa para el futuro del trabajo

El punto de referencia de GDPval nos ofrece la imagen más clara hasta la fecha de las capacidades reales de la IA en el ámbito profesional. Demuestra que su progreso es rápido y que ya es una herramienta viable y potente para el trabajo complejo que define a las economías modernas. Más que un reemplazo inminente, la IA se perfila como un colaborador cada vez más competente.

Sabiendo que la IA avanza a este ritmo, ¿cuál será la habilidad humana más importante que debemos cultivar en los próximos cinco años?

Fuente:
Patwardhan, Tejal, et al. GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks. 2025. arXiv, https://doi.org/10.48550/arXiv.2510.04374

Este texto fue elaborado con el apoyo de herramientas de inteligencia artificial mediante la técnica de Retrieval-Augmented Generation (RAG), utilizando la plataforma NotebookLM. Los contenidos y conclusiones fueron revisados y validados por el equipo del PIA, garantizando la fidelidad de las fuentes y la interpretación responsable de los materiales consultados.

Scroll al inicio