Google Gemini ya está aquí. Se trata del modelo de inteligencia artificial más grande y más avanzado de Google hasta la fecha, según asegura la compañía. Con este desarrollo, trabajo conjunto de distintos equipos, Google da el gran paso para competir con otro grandes modelos de IA ya disponibles en el mercado.
Con Gemini, Google promete superar a GPT-4 y ChatGPT. Gemini se ha desarrollado en tres dimensiones: Nano, el modelo enfocado a tareas en dispositivos móviles; Pro, modelo «para escalar una amplia gama de tareas»; y Ultra, el modelo de mayor capacidad para tareas complejas. Así, como ChatGPT es la interfaz de GPT-4, Gemini Pro ya se integró en Bard y está disponible en México, además de otros 170 países.
Qué es Google Gemini
En términos de Google, Gemini es un modelo de inteligencia artificial multimodal. Es decir, una IA tan avanzada que puede «generar y comprender, operar y combinar» diversos tipos de información, como texto, imágenes, audios, videos e incluso lenguajes de programación. Es el equivalente de Google a GPT-4, el modelo de lenguaje de OpenAI que potencia ChatGPT.
Las tres dimensiones de Gemini
La diferencia fundamental, es que Gemini es capaz de ejecutarse en cualquier dispositivo, desde celulares hasta centros de datos, según Google, y esto lo hace «el modelo más flexible hasta el momento». Para esto, Gemini fue desarrollado en sus tres tamaños Nano, Pro y Ultra.
Gemini Ultra es el la IA más potente de Google creada hasta ahora. Según sus pruebas, Gemini Ultra supera en todo aspecto a GPT-4 y ChatGPT. Lo superó en 30 de las 32 académicas estándar de evaluación de modelos de IA, y obtuvo puntaje de 90.04% en pruebas MMLU (Massive Multitasking Languaje Understanding), superando el 86.4% de GPT-4. Además, asegura Google, Gemini es el primer modelo de IA que supera el desempeño de expertos humanos en estas pruebas.
Google explica que Gemini fue desarrollado desde el inicio para ser multimodal, es decir con la capacidad de manejar distintos tipos de información al mismo tiempo. Este detalle es clave pues hasta ahora, la manera estándar para el desarrollo de IA era entrenar componentes separados y luego unirlos para imitar la multimodalidad. Gemini, siendo multimodal de manera nativa, tiene capacidades de última generación en casi todo aspecto, asegura Google.
Bard con Gemini Pro en México
Gemini 1.0 es la primera versión de la nueva IA de Google. Fue entrenado para reconocer y entender texto, imágenes, audio y más tipos de información al mismo tiempo. Esto le permite responder preguntas relacionadas a temas complejos, explica Google, e incluso explicar el razonamiento de áreas como matemáticas y física. Gemini 1.0 ya comenzó su despliegue a varios servicios y plataformas de Google.
Bard, la IA de Google, es uno de ellos. Bard con Gemini Pro ya está disponible en inglés en México, y es la manera más sencilla en la que los usuarios pueden probar las nuevas capacidades de Gemini en su versión enfocada a «tareas complejas». Esta herramienta permitirá «comprender y resumir, razonar, generar ideas, escribir y planificar», y representa la mayor actualización y mejora de Bard desde su lanzamiento, según Google.
Gemini Nano para el Pixel 8 Pro
Por otro lado, Gemini también llegará a celulares. El Pixel 8 Pro será el primer smartphone en integrar Gemini Nano, herramienta con la cual podrá realizar tareas como redacción inteligente con Gboard, disponible primero en WhatsApp y posteriormente en otras apps de mensajería, y realizar resúmenes de grabaciones de voz en la app Grabadora. Google asegura que ya trabaja para implementar Gemini en servicios tan populares como su motor de búsqueda y Chrome.
Google explica que Gemini Nano fue entrenado en dos versiones, ambas con procesamiento en dispositivo. Nano-1 tiene capacidad de 1,800 millones de parámetros para celulares con menor capacidad de memoria, y Nano-2 con capacidad de 3,250 millones de parámetros para dispositivos más potentes.
Gemini Ultra, el modelo más poderoso, hasta 2024
Gemini Ultra llegará en 2024. El modelo mayor de la nueva IA de Google tardará un poco más en llegar, según explica la compañía, debido a verificaciones de confianza y seguridad necesarias para su liberación. Estará a disposición de clientes, desarrolladores, socios y expertos en seguridad, para que puedan experimentar y dar su opinión antes del lanzamiento definitivo para desarrolladores.
También en 2024 llegará Bard Advanced, la implementación de Gemini Ultra en Bard, opción para acceder a «mejores modelos y capacidades». Con el lanzamiento de Gemini, comienza una nueva era para Google, asegura su CEO, Sundar Pichai.
*xataka