Google lanza asistente ‘Proyecto Astra’ en último avance de inteligencia artificial.

Desbloquee el Editor’s Digest de forma gratuita

Alphabet, propietario de Google, ha presentado un agente de inteligencia artificial que puede responder consultas en tiempo real a través de video, audio y texto, como parte de una serie de iniciativas diseñadas para mostrar su destreza en IA y calmar las críticas de que se ha quedado rezagado frente a sus competidores.

El director ejecutivo Sundar Pichai mostró el nuevo asistente de IA “multimodal” de la gigante del Valle del Silicio llamado Proyecto Astra, impulsado por una versión actualizada de su modelo Gemini, durante una conferencia anual de desarrolladores el martes.

Astra fue parte de una serie de anuncios para mostrar una nueva visión centrada en la IA para Google. Sigue a lanzamientos de productos y modelos de IA actualizados de rivales de Big Tech como Meta, Microsoft y su socio OpenAI.

En una demostración en video, el prototipo de asistente de IA de Google respondió a comandos de voz basados en un análisis de lo que ve a través de una cámara de teléfono o al usar un par de gafas inteligentes.

Identificó con éxito secuencias de código, sugirió mejoras a diagramas de circuitos eléctricos, reconoció el barrio de King’s Cross en Londres a través de la lente de la cámara y recordó al usuario dónde había dejado sus gafas.

Google planea comenzar a agregar las capacidades de Astra a su aplicación Gemini y a través de sus productos este año, dijo Pichai. Sin embargo, advirtió que si bien el “objetivo final es hacer que Astra esté disponible de manera fluida” en todo el software de la compañía, se implementará con cautela y “el camino hacia la comercialización será impulsado por la calidad”.

LEAR  Cómo explorar Android 14 de Google y iOS 17 de Apple

“Reducir el tiempo de respuesta a algo conversacional es un desafío de ingeniería difícil”, dijo Sir Demis Hassabis, jefe de su brazo de investigación en IA DeepMind. “Es increíble ver hasta dónde ha llegado la IA, especialmente en lo que respecta a la comprensión espacial, el procesamiento de video y la memoria.”

En la conferencia, Google también anunció grandes cambios en su motor de búsqueda principal. A partir de esta semana, todos los usuarios de EE. UU. verán una “Visión general de IA” — un breve resumen generado por IA en la parte superior de muchos resultados de búsqueda comunes, seguido de enlaces clicables intercalados con anuncios más abajo.

La compañía agregó que el sistema de búsqueda podrá responder preguntas complejas con razonamiento de múltiples pasos — lo que significa que el agente de IA puede tomar varias decisiones independientes para completar una tarea — y ayudar a los clientes a generar consultas de búsqueda utilizando voz y video.

Liz Reid, jefa de búsqueda de Google, dijo que el objetivo era “eliminar parte del trabajo tedioso en la búsqueda” y que la visión general de IA se ampliará a usuarios en otras partes del mundo más adelante este año.

Estos cambios se producen cuando OpenAI amenaza el negocio de búsqueda de Google.

La start-up con sede en San Francisco, ChatGPT, proporciona respuestas rápidas y completas a muchas preguntas, amenazando con dejar obsoletos los resultados de búsqueda que ofrecen una lista tradicional de enlaces junto con publicidad. OpenAI también ha firmado acuerdos con organizaciones de medios para incluir información actualizada y mejorar sus respuestas.

LEAR  Ganancias de los Magníficos 7 superan a las de casi todos los países del mundo. ¿Deberíamos preocuparnos?

El lunes — en un movimiento visto como un intento de opacar los anuncios de Google — OpenAI demostró una versión más rápida y económica del modelo que alimenta ChatGPT, que puede interpretar voz, video, imágenes y código de manera similar en una sola interfaz.

Google también reveló productos de IA nuevos o mejorados, incluido Veo, que genera video a partir de indicaciones de texto; Imagen 3, que crea imágenes; y Lyria, un modelo para la generación de música por IA. Los suscriptores de Gemini Advanced podrán crear chatbots personalizados llamados “Gems” para ayudar con tareas específicas.

El modelo insignia Gemini 1.5 Pro de la compañía también ha sido actualizado. Ahora tiene una ventana de contexto mucho más grande de 2 millones de tokens — refiriéndose a la cantidad de datos como código o imágenes a los que puede hacer referencia al generar una respuesta — lo que lo hace mejor en seguir instrucciones matizadas y volver atrás a conversaciones anteriores.