Estilo de Vida

Google presenta Gemini Embedding 2: su primer modelo de IA capaz de entender texto, imágenes, audio y video

Por

marzo 13, 2026

Google presenta Gemini Embedding 2: su primer modelo de IA capaz de entender texto, imágenes, audio y video

- Publicidad -

Un sistema que unifica múltiples formatos en un mismo espacio de procesamiento

Google anunció Gemini Embedding 2, un nuevo modelo de inteligencia artificial diseñado para procesar texto, imágenes, video, audio y documentos dentro de un mismo sistema. La herramienta marca un paso importante en el desarrollo de modelos multimodales, capaces de analizar diferentes tipos de información sin necesidad de dividirlos en procesos separados.

El modelo ya se encuentra disponible en versión preliminar pública a través de Gemini API y Vertex AI, con el objetivo de que desarrolladores puedan crear sistemas que combinen distintos formatos de datos en tareas como clasificación, búsqueda o análisis de información.

A diferencia de versiones anteriores que solo trabajaban con texto, Gemini Embedding 2 permite interpretar múltiples tipos de contenido de forma simultánea, facilitando la creación de herramientas más complejas de recuperación y organización de información.

Cómo funciona el nuevo modelo de Google

Los llamados embedding models convierten datos en vectores numéricos que representan su significado semántico. Esto permite que los sistemas de inteligencia artificial comparen información, identifiquen patrones y encuentren relaciones entre distintos contenidos.

En el caso de Gemini Embedding 2, el modelo genera vectores de 3,072 dimensiones por defecto. Sin embargo, utiliza una técnica conocida como Matryoshka Representation Learning, que permite reducir esas dimensiones a 1,536 o 768 para mejorar el rendimiento o disminuir el uso de almacenamiento.

Según Google, el sistema puede capturar la intención semántica en más de 100 idiomas, lo que amplía sus posibles aplicaciones en sistemas de búsqueda, clasificación automática de contenido o análisis de grandes bases de datos.

Capacidades y límites del modelo multimodal

El modelo está diseñado para procesar distintos tipos de información dentro de una misma solicitud. Entre sus capacidades técnicas destacan:

Hasta 8,192 tokens de texto por petición
Un máximo de seis imágenes en formatos PNG o JPEG
Clips de video de hasta 120 segundos en formato MP4 o MOV
Documentos PDF de hasta seis páginas

Además, el sistema permite combinar diferentes formatos en una sola solicitud, por ejemplo, una imagen acompañada de texto o un video junto con metadatos descriptivos. Esta capacidad facilita la creación de sistemas de búsqueda más precisos.

Gemini Embedding 2 está orientado a tareas avanzadas como búsqueda semántica, clasificación de datos o sistemas de generación aumentada por recuperación (RAG), un enfoque cada vez más utilizado en aplicaciones basadas en inteligencia artificial.

Con este lanzamiento, Google busca reforzar su posición en la carrera por desarrollar modelos multimodales más potentes, capaces de entender y relacionar distintos tipos de contenido dentro de un mismo entorno digital.

- Publicidad -

Un sistema que unifica múltiples formatos en un mismo espacio de procesamiento

Cómo funciona el nuevo modelo de Google

Capacidades y límites del modelo multimodal

Mundo del café

¿Qué es FLOW?

Mapa del sitio

Lo reciente