Sam Altman, CEO de OpenAI, presentó las características de Operator acompañado de Yash Kumar, Casey Chu y Reiichiro Nakano, desarrolladores del nuevo agente
OpenAI acaba de lanzar Operator, su primer “agente” que puede realizar tareas de manera independiente para los usuarios utilizando un navegador web en la nube.
“Los agentes de inteligencia artificial (IA) son sistemas de IA que pueden hacer un trabajo para ustedes de forma independiente. Les das una tarea y ellos se ponen a hacerla. Creemos que esta será una gran tendencia en IA y que realmente afectará el trabajo que las personas pueden hacer, cuán productivas pueden ser, cuán creativas pueden ser, qué pueden lograr”, dijo Sam Altman, CEO de OpenAI, en el video para introducir Operator.
Altman comentó que Operator puede interactuar con la pantalla, controlar el teclado y el ratón, y realizar diversas tareas como lo haría un usuario humano en un navegador web
Para garantizar una implementación segura e iterativa, el nuevo agente estará disponible inicialmente en EE. UU. para usuarios Pro, con planes de expansión a otros países y a usuarios plus en los próximos meses.
Operator se puede encargar de una amplia variedad de tareas repetitivas del navegador, como completar formularios, pedir alimentos e incluso crear memes. “La capacidad de usar las mismas interfaces y herramientas con las que los humanos interactúan a diario amplía la utilidad de la IA, lo que ayuda a las personas a ahorrar tiempo en las tareas cotidianas y, al mismo tiempo, abre nuevas oportunidades de interacción para las empresas”, señala OpenAI en su pagina web.
Destacaron que Operator transforma la IA de una herramienta pasiva a un participante activo en el ecosistema digital, ya que agilizará las tareas de los usuarios y acercará los beneficios de los agentes a las empresas que desean experiencias de cliente innovadoras y mayores tasas de conversión.
“Estamos colaborando con empresas como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber y otras para garantizar que Operator aborde las necesidades del mundo real respetando las normas establecidas. Además de estas colaboraciones, vemos mucho potencial para mejorar la accesibilidad y la eficiencia de ciertos flujos de trabajo, particularmente en aplicaciones del sector público”, explicaron.
Operator funciona con un nuevo modelo llamado Computer-Using Agent (CUA). Explicaron que al combinar las capacidades de visión de GPT-4o con razonamiento avanzado a través del aprendizaje de refuerzo, CUA está capacitado para interactuar con interfaces gráficas de usuario (GUI): los botones, menús y campos de texto que las personas ven en una pantalla.
Operator puede “ver” (a través de capturas de pantalla) e “interactuar” (utilizando todas las acciones que permiten un mouse y un teclado) con un navegador, lo que le permite tomar medidas en la web sin requerir integraciones API personalizadas
Si encuentra desafíos o comete errores, Operator puede aprovechar sus capacidades de razonamiento para autocorregirse. Cuando se bloquea y necesita ayuda, simplemente devuelve el control al usuario, lo que garantiza una experiencia fluida y colaborativa.
Si bien CUA aún se encuentra en sus primeras etapas y tiene limitaciones, establece nuevos resultados de referencia de última generación en WebArena y WebVoyager, dos puntos de referencia clave para el uso de navegadores. Lea más sobre las evaluaciones y la investigación detrás de Operator en nuestra publicación del blog de investigación.