La investigación en modelos de lenguaje y visión, a menudo denominados modelos de " visión-lenguaje" (VLM, por sus siglas en inglés), ha avanzado considerablemente en los últimos años. Estos modelos son capaces de interpretar y generar texto en relación a imágenes, permitiendo un sinfín de aplicaciones, desde la generación de descripciones automáticas de imágenes hasta el análisis de contenido visual.
La "falta de censura" en el


