Respuesta corta: Los modelos de base son modelos de IA grandes y de propósito general, entrenados con conjuntos de datos extensos y amplios, y luego adaptados a diversas tareas (escritura, búsqueda, codificación, imágenes) mediante indicaciones, ajustes, herramientas o recuperación. Si necesita respuestas fiables, combínelos con una base (como RAG), restricciones claras y comprobaciones, en lugar de dejar que improvisen.
Conclusiones clave:
Definición : Un modelo base ampliamente entrenado y reutilizado en muchas tareas, no una tarea por modelo.
Adaptación : utilice indicaciones, ajustes, LoRA/adaptadores, RAG y herramientas para orientar el comportamiento.
Ajuste generativo : potencia la generación de texto, imágenes, audio, código y contenido multimodal.
Señales de calidad : priorizar la controlabilidad, menos alucinaciones, capacidad multimodal e inferencia eficiente.
Controles de riesgos : Planifique ante alucinaciones, sesgos, fugas de privacidad e inyección rápida a través de la gobernanza y las pruebas.

Artículos que quizás te interese leer después de éste:
🔗 ¿Qué es una empresa de IA?
Comprenda cómo las empresas de IA crean productos, equipos y modelos de ingresos.
🔗 ¿Cómo se ve el código de IA?
Vea ejemplos de código de IA, desde modelos Python hasta API.
🔗 ¿Qué es un algoritmo de IA?
Aprenda qué son los algoritmos de IA y cómo toman decisiones.
🔗 ¿Qué es la tecnología IA?
Explore las principales tecnologías de IA que impulsan la automatización, el análisis y las aplicaciones inteligentes.
1) Modelos de base: una definición sin vaho 🧠
Un modelo de base es un modelo de IA grande y de propósito general entrenado con datos amplios (generalmente toneladas de ellos) para que pueda adaptarse a muchas tareas, no solo a una ( NIST , Stanford CRFM ).
En lugar de construir un modelo separado para:
-
escribir correos electrónicos
-
respondiendo preguntas
-
resumiendo archivos PDF
-
generando imágenes
-
clasificación de tickets de soporte
-
traducir idiomas
-
haciendo sugerencias de código
…entrenas un gran modelo base que “aprende el mundo” de forma estadística difusa, luego adaptas a trabajos específicos con indicaciones, ajustes o herramientas adicionales ( Bommasani et al., 2021 ).
En otras palabras: es un motor general que puedes dirigir.
Y sí, la palabra clave es «general». Ahí está el truco.
2) ¿Qué son los modelos de base en la IA generativa? (Cómo encajan específicamente) 🎨📝
Entonces, ¿qué son los Modelos Fundamentarios en la IA Generativa? Son los modelos subyacentes que impulsan los sistemas capaces de generar nuevo contenido: texto, imágenes, audio, código, vídeo y, cada vez más, combinaciones de todos ellos ( NIST , Perfil de IA Generativa del NIST ).
La IA generativa no se trata solo de predecir etiquetas como "spam/no spam". Se trata de producir resultados que parezcan hechos por una persona.
-
párrafos
-
poemas
-
descripciones de productos
-
ilustraciones
-
melodías
-
prototipos de aplicaciones
-
voces sintéticas
-
Y a veces tonterías increíblemente seguras 🙃
Los modelos de base son especialmente buenos aquí porque:
-
Han absorbido patrones amplios de grandes conjuntos de datos ( Bommasani et al., 2021 ).
-
Pueden generalizar a nuevas indicaciones (incluso a las más extrañas) ( Brown et al., 2020 ).
-
Se pueden reutilizar para docenas de resultados sin tener que volver a capacitarlos desde cero ( Bommasani et al., 2021 ).
Son la "capa base", como la masa de pan. Puedes hornearla en una baguette, una pizza o rollos de canela... no es una metáfora perfecta, pero me entiendes 😄
3) Por qué cambiaron todo (y por qué la gente no deja de hablar de ellos) 🚀
Antes de los modelos básicos, gran parte de la IA era específica para cada tarea:
-
Entrenar un modelo para el análisis de sentimientos
-
entrenar a otro para la traducción
-
Entrenar a otro para la clasificación de imágenes
-
Entrenar a otro para el reconocimiento de entidades nombradas
Eso funcionó, pero fue lento, costoso y un poco… frágil.
Los modelos de la Fundación le dieron la vuelta:
-
preentrenar una vez (gran esfuerzo)
-
reutilizar en todas partes (gran recompensa) ( Bommasani et al., 2021 )
Esa reutilización es el multiplicador. Las empresas pueden desarrollar 20 funciones a partir de una familia de modelos, en lugar de reinventar la rueda 20 veces.
Además, la experiencia del usuario se volvió más natural:
-
No “usas un clasificador”
-
Hablas con la modelo como si fuera una compañera de trabajo servicial que nunca duerme ☕🤝
A veces también es como un compañero de trabajo que con confianza lo malinterpreta todo, pero bueno. Crecimiento.
4) La idea central: preentrenamiento + adaptación 🧩
Casi todos los modelos de base siguen un patrón ( Stanford CRFM , NIST ):
Preentrenamiento (la fase de “absorber internet”) 📚
El modelo se entrena con conjuntos de datos masivos y amplios mediante aprendizaje autosupervisado ( NIST ). En el caso de los modelos lingüísticos, esto suele implicar predecir las palabras faltantes o el siguiente token ( Devlin et al., 2018 , Brown et al., 2020 ).
El objetivo no es enseñarle una sola tarea, sino enseñarle representaciones generales :
-
gramática
-
hechos (más o menos)
-
patrones de razonamiento (a veces)
-
estilos de escritura
-
estructura del código
-
intención humana común
Adaptación (la fase de “hacerlo práctico”) 🛠️
Luego lo adaptas usando uno o más de los siguientes:
-
indicaciones (instrucciones en lenguaje sencillo)
-
Ajuste de instrucciones (entrenamiento para seguir instrucciones) ( Wei et al., 2021 )
-
Ajuste fino (entrenamiento sobre los datos de su dominio)
-
LoRA/adaptadores (métodos de ajuste ligeros) ( Hu et al., 2021 )
-
RAG (generación aumentada por recuperación: el modelo consulta sus documentos) ( Lewis et al., 2020 )
-
uso de herramientas (llamada a funciones, navegación en sistemas internos, etc.)
Es por esto que el mismo modelo base puede escribir una escena romántica… y luego ayudar a depurar una consulta SQL cinco segundos después 😭
5) ¿Qué hace que una versión de un modelo base sea buena? ✅
Esta es la sección que la gente se salta y luego lamenta.
Un buen modelo de base no es solo más grande. Un tamaño más grande ayuda, claro está... pero no es lo único. Una buena versión de un modelo de base suele tener:
Fuerte generalización 🧠
Funciona bien en muchas tareas sin necesidad de volver a capacitarse para tareas específicas ( Bommasani et al., 2021 ).
Dirección y controlabilidad 🎛️
Puede seguir de forma fiable instrucciones como:
-
“ser conciso”
-
“usa viñetas”
-
“escribe en un tono amigable”
-
“no reveles información confidencial”
Algunos modelos son elegantes, pero resbaladizos. Es como intentar sostener una pastilla de jabón en la ducha. Útiles, pero erráticos 😅
Baja tendencia a las alucinaciones (o al menos incertidumbre sincera) 🧯
Ningún modelo es inmune a las alucinaciones, excepto las buenas:
-
alucinar menos
-
Admitir la incertidumbre con más frecuencia
-
Manténgase más cerca del contexto proporcionado al utilizar la recuperación ( Ji et al., 2023 , Lewis et al., 2020 )
Buena capacidad multimodal (cuando sea necesario) 🖼️🎧
Si está creando asistentes que leen imágenes, interpretan gráficos o entienden audio, la multimodalidad es muy importante ( Radford et al., 2021 ).
Inferencia eficiente ⚡
La latencia y el coste importan. Un modelo potente pero lento es como un deportivo con una rueda pinchada.
Comportamiento de seguridad y alineación 🧩
No sólo “rechazarlo todo”, sino:
-
evitar instrucciones dañinas
-
reducir el sesgo
-
Manejar temas delicados con cuidado
-
resistir intentos básicos de jailbreak (de alguna manera…) ( NIST AI RMF 1.0 , NIST Generative AI Profile )
Documentación + ecosistema 🌱
Esto suena seco, pero es real:
-
estampación
-
arneses de evaluación
-
opciones de implementación
-
controles empresariales
-
soporte de ajuste fino
Sí, «ecosistema» es una palabra vaga. Yo también la odio. Pero importa.
6) Tabla comparativa: opciones de modelos de cimentación comunes (y para qué sirven) 🧾
A continuación se presenta una tabla comparativa práctica, aunque algo imperfecta. No es la única lista verdadera, sino más bien lo que la gente elige en la naturaleza.
| tipo de herramienta/modelo | audiencia | precio-ish | Por qué funciona |
|---|---|---|---|
| Maestría en Derecho (LLM) propia (estilo chat) | equipos que buscan velocidad y refinamiento | basado en el uso / suscripción | Excelente seguimiento de instrucciones, sólido rendimiento general, generalmente mejor "listo para usar" 😌 |
| LLM de peso abierto (autoalojable) | constructores que quieren control | Costo de infraestructura (y dolores de cabeza) | Personalizable, respetuoso con la privacidad, se puede ejecutar localmente… si te gusta trastear a medianoche |
| Generador de imágenes de difusión | creativos, equipos de diseño | De gratuito a pago | Excelente síntesis de imágenes, variedad de estilos, flujos de trabajo iterativos (además: puede que no se tenga mucho cuidado) ✋😬 ( Ho et al., 2020 , Rombach et al., 2021 ) |
| Modelo multimodal de “visión-lenguaje” | aplicaciones que leen imágenes + texto | basado en el uso | Permite hacer preguntas sobre imágenes, capturas de pantalla y diagramas: sorprendentemente útil ( Radford et al., 2021 ). |
| Incorporación del modelo de base | sistemas de búsqueda + RAG | bajo costo por llamada | Convierte texto en vectores para búsqueda semántica, agrupamiento y recomendación: energía MVP silenciosa ( Karpukhin et al., 2020 , Douze et al., 2024 ) |
| Modelo básico de conversión de voz a texto | centros de llamadas, creadores | basado en el uso / local | Transcripción rápida, soporte multilingüe, lo suficientemente bueno para audio ruidoso (generalmente) 🎙️ ( Susurro ) |
| Modelo básico de texto a voz | equipos de productos, medios de comunicación | basado en el uso | Generación de voz natural, estilos de voz, narración: todo puede volverse espeluznantemente real ( Shen et al., 2017 ) |
| LLM centrado en el código | desarrolladores | basado en el uso / suscripción | Mejor en patrones de código, depuración, refactorizaciones… aunque todavía no puedo leer la mente 😅 |
Observe que "modelo de base" no solo significa "chatbot". Las incrustaciones y los modelos de voz también pueden ser similares a los de la base, ya que son amplios y reutilizables en diversas tareas ( Bommasani et al., 2021 , NIST ).
7) Una mirada más de cerca: cómo aprenden los modelos básicos del lenguaje (la versión vibracional) 🧠🧃
Los modelos de fundamentos del lenguaje (a menudo llamados LLM) suelen entrenarse con grandes colecciones de texto. Aprenden prediciendo tokens ( Brown et al., 2020 ). Eso es todo. Sin secretos mágicos.
Pero la magia es que predecir tokens obliga al modelo a aprender la estructura ( CSET ):
-
gramática y sintaxis
-
relaciones temáticas
-
patrones similares al razonamiento (a veces)
-
secuencias comunes de pensamiento
-
cómo la gente explica las cosas, discute, se disculpa, negocia, enseña
Es como aprender a imitar millones de conversaciones sin "entender" como lo hacen los humanos. Lo cual suena como si no debería funcionar... y, sin embargo, sigue funcionando.
Una pequeña exageración: es básicamente como comprimir la escritura humana en un cerebro probabilístico gigante.
Claro que esa metáfora está un poco maldita. Pero avanzamos 😄
8) Una mirada más de cerca: modelos de difusión (por qué las imágenes funcionan de manera diferente) 🎨🌀
Los modelos de base de imágenes a menudo utilizan de difusión ( Ho et al., 2020 , Rombach et al., 2021 ).
La idea básica:
-
Añade ruido a las imágenes hasta que son básicamente estática de TV
-
Entrenar un modelo para revertir ese ruido paso a paso
-
En el momento de la generación, comience con el ruido y “elimine el ruido” en una imagen guiada por una indicación ( Ho et al., 2020 ).
Por eso generar imágenes es como “revelar” una foto, excepto que la foto es de un dragón con zapatillas en el pasillo de un supermercado 🛒🐉
Los modelos de difusión son buenos porque:
-
Generan imágenes de alta calidad
-
Pueden guiarse fuertemente por el texto
-
Admiten refinamiento iterativo (variaciones, retoques, ampliación) ( Rombach et al., 2021 ).
A veces también tienen problemas con:
-
Representación de texto dentro de imágenes
-
detalles finos de la anatomía
-
Identidad de personaje consistente en todas las escenas (está mejorando, pero aún así)
9) Una mirada más cercana: modelos de base multimodales (texto + imágenes + audio) 👀🎧📝
Los modelos de base multimodal tienen como objetivo comprender y generar múltiples tipos de datos:
-
texto
-
imágenes
-
audio
-
video
-
A veces, entradas similares a sensores ( perfil de IA generativa del NIST )
Por qué esto importa en la vida real:
-
El servicio de atención al cliente puede interpretar capturas de pantalla
-
Las herramientas de accesibilidad pueden describir imágenes
-
Las aplicaciones educativas pueden explicar diagramas
-
Los creadores pueden remezclar formatos rápidamente
-
Las herramientas comerciales pueden "leer" una captura de pantalla del panel y resumirla
Bajo el capó, los sistemas multimodales a menudo alinean representaciones:
-
convertir una imagen en incrustaciones
-
convertir texto en incrustaciones
-
Aprende un espacio compartido donde "gato" coincide con los píxeles de gato 😺 ( Radford et al., 2021 )
No siempre es elegante. A veces se cose como una colcha. Pero funciona.
10) Ajuste fino vs. indicaciones vs. RAG (cómo adaptar el modelo base) 🧰
Si estás intentando hacer que un modelo básico sea práctico para un dominio específico (legal, médico, servicio al cliente, conocimiento interno), tienes algunas palancas:
Incitación 🗣️
Lo más rápido y sencillo.
-
Ventajas: cero entrenamiento, iteración instantánea
-
Desventajas: puede ser inconsistente, límites de contexto, fragilidad inmediata
Afinando 🎯
Entrene más el modelo con sus ejemplos.
-
Ventajas: comportamiento más consistente, mejor lenguaje de dominio, puede reducir la longitud de las indicaciones
-
Contras: costo, requisitos de calidad de datos, riesgo de sobreajuste, mantenimiento
Ajuste ligero (LoRA / adaptadores) 🧩
Una versión más eficiente del ajuste fino ( Hu et al., 2021 ).
-
Ventajas: más barato, modular, más fácil de intercambiar
-
Contras: aún necesita formación y evaluación
RAG (generación aumentada por recuperación) 🔎
El modelo obtiene documentos relevantes de su base de conocimientos y responde utilizándolos ( Lewis et al., 2020 ).
-
Ventajas: conocimientos actualizados, citas internas (si lo implementas), menos reentrenamiento
-
Contras: la calidad de la recuperación puede ser decisiva, necesita buenos fragmentos e incrustaciones
Hablando en serio: muchos sistemas exitosos combinan la incitación con el RAG. El ajuste fino es poderoso, pero no siempre necesario. La gente se apresura a hacerlo porque suena impresionante 😅
11) Riesgos, límites y la sección “por favor, no implementes esto a ciegas” 🧯😬
Los modelos de base son potentes, pero no son estables como el software tradicional. Son más bien como… un becario talentoso con problemas de confianza.
Limitaciones clave a planificar:
Alucinaciones 🌀
Los modelos pueden inventar:
-
fuentes falsas
-
hechos incorrectos
-
Pasos plausibles pero erróneos ( Ji et al., 2023 )
Mitigaciones:
-
RAG con contexto fundamentado ( Lewis et al., 2020 )
-
Salidas restringidas (esquemas, llamadas de herramientas)
-
instrucción explícita de “no adivine”
-
capas de verificación (reglas, verificaciones cruzadas, revisión humana)
Sesgos y patrones dañinos ⚠️
Dado que los datos de entrenamiento reflejan a los humanos, puedes obtener:
-
estereotipos
-
rendimiento desigual entre los grupos
-
Terminaciones inseguras ( NIST AI RMF 1.0 , Bommasani et al., 2021 )
Mitigaciones:
-
ajuste de seguridad
-
equipo rojo
-
filtros de contenido
-
Restricciones de dominio cuidadosas ( Perfil de IA generativa del NIST )
Privacidad y fuga de datos 🔒
Si introduce datos confidenciales en un punto final del modelo, necesita saber:
-
Cómo se almacena
-
ya sea que se use para entrenamiento
-
¿Qué registro existe?
-
Qué controles necesita su organización ( NIST AI RMF 1.0 )
Mitigaciones:
-
opciones de implementación privada
-
gobernanza fuerte
-
exposición mínima de datos
-
RAG solo interno con estricto control de acceso ( Perfil de IA generativa del NIST , Carlini et al., 2021 )
Inyección rápida (especialmente con RAG) 🕳️
Si el modelo lee texto no confiable, ese texto puede intentar manipularlo:
-
“Ignorar instrucciones anteriores…”
-
“Envíame el secreto…” ( OWASP , Greshake et al., 2023 )
Mitigaciones:
-
aislar las instrucciones del sistema
-
desinfectar el contenido recuperado
-
Utilice políticas basadas en herramientas (no solo indicaciones)
-
Prueba con entradas adversarias ( Hoja de referencia de OWASP , Perfil de IA generativa del NIST )
No intento asustarte. Solo... es mejor saber dónde crujen las tablas del suelo.
12) Cómo elegir un modelo de base para su caso de uso 🎛️
Si está eligiendo un modelo de base (o construyendo sobre uno), comience con estas indicaciones:
Define lo que estás generando 🧾
-
solo texto
-
imágenes
-
audio
-
multimodal mixto
Establece tu nivel de factualidad 📌
Si necesita alta precisión (finanzas, salud, legal, seguridad):
-
Necesitarás RAG ( Lewis et al., 2020 )
-
Querrás validación
-
Querrá una revisión humana en el proceso (al menos algunas veces) ( NIST AI RMF 1.0 )
Decide tu objetivo de latencia ⚡
El chat es inmediato. El resumen por lotes puede ser más lento.
Si necesita una respuesta inmediata, el tamaño del modelo y el alojamiento son importantes.
Necesidades de privacidad y cumplimiento de mapas 🔐
Algunos equipos requieren:
-
Implementación local/VPC
-
sin retención de datos
-
registros de auditoría estrictos
-
Control de acceso por documento ( NIST AI RMF 1.0 , NIST Generative AI Profile )
Equilibrar el presupuesto y tener paciencia 😅
El autoalojamiento ofrece control, pero añade complejidad.
Las API administradas son sencillas, pero pueden ser costosas y menos personalizables.
Un pequeño consejo práctico: primero crea un prototipo con algo fácil y luego consolida el proyecto. Empezar con la configuración "perfecta" suele ralentizar el proceso.
13) ¿Qué son los modelos fundamentales en la IA generativa? (El modelo mental rápido) 🧠✨
Volvamos al tema. ¿Qué son los modelos fundamentales en la IA generativa?
Ellos son:
-
modelos generales grandes entrenados con datos amplios ( NIST , Stanford CRFM )
-
Capaz de generar contenido (texto, imágenes, audio, etc.) ( Perfil de IA generativa del NIST )
-
Adaptable a muchas tareas mediante indicaciones, ajustes y recuperación ( Bommasani et al., 2021 ).
-
La capa base que impulsa la mayoría de los productos de IA generativa modernos
No son una única arquitectura o marca. Son una categoría de modelos que se comportan como una plataforma.
Un modelo básico se parece más a una cocina que a una calculadora. Puedes cocinar un montón de comidas. También puedes quemar las tostadas si no prestas atención... pero la cocina sigue siendo bastante práctica 🍳🔥
14) Resumen y conclusiones ✅🙂
Los modelos de base son los motores reutilizables de la IA generativa. Se entrenan ampliamente y luego se adaptan a tareas específicas mediante indicaciones, ajustes y recuperación ( NIST , Stanford CRFM ). Pueden ser asombrosos, desordenados, potentes y, a veces, ridículos, todo a la vez.
Resumen:
-
Modelo de fundación = modelo base de propósito general ( NIST )
-
IA generativa = creación de contenido, no solo clasificación ( Perfil de IA generativa del NIST )
-
Los métodos de adaptación (prompting, RAG, tuning) lo hacen práctico ( Lewis et al., 2020 , Hu et al., 2021 ).
-
La elección de un modelo implica hacer concesiones: precisión, coste, latencia, privacidad y seguridad ( NIST AI RMF 1.0 )
Si construyes algo con IA generativa, comprender los modelos de cimentación no es opcional. Es el suelo sobre el que se asienta el edificio... y sí, a veces el suelo se tambalea un poco 😅
Preguntas frecuentes
Modelos de cimentación, en términos sencillos
Un modelo base es un modelo de IA grande y de propósito general, entrenado con datos amplios, lo que permite su reutilización en diversas tareas. En lugar de crear un modelo por tarea, se parte de un modelo base sólido y se adapta según sea necesario. Esta adaptación suele realizarse mediante indicaciones, ajustes y recuperación (RAG) o herramientas. La idea central es la amplitud y la manejabilidad.
En qué se diferencian los modelos básicos de los modelos de IA tradicionales para tareas específicas
La IA tradicional suele entrenar un modelo independiente para cada tarea, como el análisis de sentimientos o la traducción. Los modelos base invierten este patrón: se preentrenan una vez y luego se reutilizan en diversas funciones y productos. Esto puede reducir la duplicación de esfuerzos y acelerar la implementación de nuevas capacidades. La desventaja es que pueden ser menos predecibles que el software clásico, a menos que se les añadan restricciones y pruebas.
Modelos fundamentales en IA generativa
En la IA generativa, los modelos de base son los sistemas básicos que pueden producir contenido nuevo, como texto, imágenes, audio, código o resultados multimodales. No se limitan al etiquetado ni a la clasificación; generan respuestas que se asemejan al trabajo humano. Gracias a que aprenden patrones generales durante el preentrenamiento, pueden gestionar diversos tipos y formatos de indicaciones. Constituyen la base de la mayoría de las experiencias generativas modernas.
Cómo aprenden los modelos básicos durante el preentrenamiento
La mayoría de los modelos de fundamentos del lenguaje aprenden prediciendo elementos, como la siguiente palabra o las palabras que faltan en el texto. Este simple objetivo los impulsa a internalizar estructuras como la gramática, el estilo y los patrones comunes de explicación. También pueden absorber una gran cantidad de conocimiento del mundo, aunque no siempre de forma fiable. El resultado es una sólida representación general que posteriormente puede orientarse hacia trabajos específicos.
La diferencia entre indicaciones, ajuste fino, LoRA y RAG
La incitación es la forma más rápida de dirigir el comportamiento mediante instrucciones, pero puede ser frágil. El ajuste fino entrena el modelo con más detalle en los ejemplos para lograr un comportamiento más consistente, pero añade coste y mantenimiento. LoRA/adaptadores ofrece un enfoque de ajuste fino más ligero, a menudo más económico y modular. RAG recupera documentos relevantes y obtiene la respuesta del modelo utilizando ese contexto, lo que aporta frescura y fundamento.
Cuándo utilizar RAG en lugar de ajuste fino
RAG suele ser una buena opción cuando se necesitan respuestas basadas en documentos actuales o en la base de conocimientos interna. Puede reducir las conjeturas al proporcionar al modelo contexto relevante en el momento de la generación. El ajuste fino es más adecuado cuando se necesita un estilo, una redacción de dominio o un comportamiento consistentes que la incitación no puede producir de forma fiable. Muchos sistemas prácticos combinan la incitación con RAG antes de recurrir al ajuste fino.
Cómo reducir las alucinaciones y obtener respuestas más fiables
Un enfoque común consiste en basar el modelo en la recuperación (RAG) para que se mantenga fiel al contexto proporcionado. También se pueden restringir los resultados con esquemas, requerir llamadas a herramientas para los pasos clave y añadir instrucciones explícitas de "no adivinar". Las capas de verificación también son importantes, como las comprobaciones de reglas, la verificación cruzada y la revisión humana para casos de uso de mayor relevancia. Considere el modelo como un auxiliar probabilístico, no como una fuente de verdad por defecto.
Los mayores riesgos de los modelos de cimentación en producción
Los riesgos comunes incluyen alucinaciones, patrones sesgados o dañinos en los datos de entrenamiento y fugas de privacidad si se gestionan mal los datos confidenciales. Los sistemas también pueden ser vulnerables a la inyección de avisos, especialmente cuando el modelo lee texto no confiable de documentos o contenido web. Las medidas de mitigación suelen incluir gobernanza, equipos rojos, controles de acceso, patrones de avisos más seguros y evaluación estructurada. Planifique estos riesgos con antelación en lugar de aplicar parches posteriormente.
Inyección rápida y por qué es importante en los sistemas RAG
La inyección de indicaciones ocurre cuando un texto no confiable intenta anular instrucciones, como "ignorar instrucciones previas" o "revelar secretos". En RAG, los documentos recuperados pueden contener estas instrucciones maliciosas, y el modelo podría seguirlas si no se tiene cuidado. Un enfoque común consiste en aislar las instrucciones del sistema, depurar el contenido recuperado y basarse en políticas basadas en herramientas en lugar de solo indicaciones. Las pruebas con entradas adversarias ayudan a identificar puntos débiles.
Cómo elegir un modelo de base para su caso de uso
Empiece por definir qué necesita generar: texto, imágenes, audio, código o resultados multimodales. A continuación, establezca el estándar de factualidad: los dominios de alta precisión suelen requerir una base (RAG), validación y, en ocasiones, revisión humana. Considere la latencia y el coste, ya que un modelo sólido que sea lento o costoso puede ser difícil de implementar. Por último, asigne las necesidades de privacidad y cumplimiento a las opciones y controles de implementación.
Referencias
-
Instituto Nacional de Estándares y Tecnología (NIST) - Modelo Fundacional (término del glosario) - csrc.nist.gov
-
Instituto Nacional de Estándares y Tecnología (NIST) - NIST AI 600-1: Perfil de IA generativa - nvlpubs.nist.gov
-
Instituto Nacional de Estándares y Tecnología (NIST) - NIST AI 100-1: Marco de gestión de riesgos de IA (AI RMF 1.0) - nvlpubs.nist.gov
-
Centro de Investigación sobre Modelos de Cimentaciones de Stanford (CRFM) - Informe - crfm.stanford.edu
-
arXiv - Sobre las oportunidades y riesgos de los modelos de fundaciones (Bommasani et al., 2021) - arxiv.org
-
arXiv - Los modelos lingüísticos son aprendices de pocas oportunidades (Brown et al., 2020) - arxiv.org
-
arXiv - Generación aumentada por recuperación para tareas de PNL con uso intensivo de conocimiento (Lewis et al., 2020) - arxiv.org
-
arXiv - LoRA: Adaptación de bajo rango de modelos lingüísticos extensos (Hu et al., 2021) - arxiv.org
-
arXiv - BERT: Preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje (Devlin et al., 2018) - arxiv.org
-
arXiv - Los modelos de lenguaje perfeccionados son aprendices de cero disparos (Wei et al., 2021) - arxiv.org
-
Biblioteca Digital ACM - Estudio sobre la alucinación en la generación del lenguaje natural (Ji et al., 2023) - dl.acm.org
-
arXiv - Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural (Radford et al., 2021) - arxiv.org
-
arXiv - Modelos probabilísticos de difusión con eliminación de ruido (Ho et al., 2020) - arxiv.org
-
arXiv - Síntesis de imágenes de alta resolución con modelos de difusión latente (Rombach et al., 2021) - arxiv.org
-
arXiv - Recuperación de pasajes densos para la respuesta a preguntas de dominio abierto (Karpukhin et al., 2020) - arxiv.org
-
arXiv - La biblioteca Faiss (Douze et al., 2024) - arxiv.org
-
OpenAI - Presentamos Whisper - openai.com
-
arXiv - Síntesis natural de TTS mediante el condicionamiento de WaveNet en predicciones del espectrograma Mel (Shen et al., 2017) - arxiv.org
-
Centro de Seguridad y Tecnología Emergente (CSET), Universidad de Georgetown - El sorprendente poder de la predicción de la siguiente palabra: explicación de los modelos lingüísticos de gran tamaño (parte 1) - cset.georgetown.edu
-
USENIX - Extracción de datos de entrenamiento de grandes modelos lingüísticos (Carlini et al., 2021) - usenix.org
-
OWASP - LLM01: Inyección rápida - genai.owasp.org
-
arXiv - Más de lo que has pedido: Un análisis exhaustivo de las nuevas amenazas de inyección de indicaciones para los modelos de lenguaje grandes integrados en aplicaciones (Greshake et al., 2023) - arxiv.org
-
Hojas de referencia de OWASP - Hoja de referencia para la prevención de inyecciones rápidas de LLM - cheatsheetseries.owasp.org