¿De dónde obtiene la información la IA?

¿Alguna vez te has preguntado de dónde viene todo esto ? O sea, la IA no anda rebuscando entre estanterías polvorientas ni viendo cortos de YouTube a escondidas. Sin embargo, de alguna manera, encuentra respuestas a todo, desde trucos para la lasaña hasta la física de los agujeros negros, como si tuviera un archivador inagotable. La realidad es más extraña, y quizá más intrigante, de lo que imaginas. Analicémosla un poco (y sí, quizá desmintiendo un par de mitos por el camino).

¿Es brujería? 🌐

No es brujería, aunque a veces lo parezca. Lo que ocurre en segundo plano es básicamente predicción de patrones . Los grandes modelos de lenguaje (LLM) no almacenan datos como el cerebro se aferra a la receta de galletas de la abuela; en cambio, están entrenados para adivinar la siguiente palabra (muestra) basándose en la anterior [2]. En la práctica, eso significa que se aferran a las relaciones: qué palabras se unen, cómo suelen formarse las oraciones, cómo se construyen las ideas completas como si fueran andamiajes. Por eso el resultado suena bien, aunque, siendo sinceros, se trata de mimetismo estadístico, no de comprensión [4].

Entonces, ¿qué hace que la información generada por IA sea realmente útil ? Un par de cosas:

Diversidad de datos : extracción de innumerables fuentes, no de un flujo reducido.
Actualizaciones : sin ciclos de actualización, se vuelve obsoleto rápidamente.
Filtrado : lo ideal es atrapar la basura antes de que se filtre (aunque, seamos realistas, esa red tiene agujeros).
Verificación cruzada : apoyarse en fuentes de autoridad (pensemos en la NASA, la OMS, las principales universidades), que es algo imprescindible en la mayoría de los manuales de gobernanza de la IA [3].

Aun así, a veces inventa con seguridad. ¿Esas supuestas alucinaciones ? Básicamente, tonterías refinadas, dichas con seriedad [2][3].

Artículos que quizás te interese leer después de éste:

🔗 ¿Puede la IA predecir los números de la lotería?
Explorando mitos y hechos sobre las predicciones de lotería mediante inteligencia artificial.

🔗 ¿Qué significa adoptar un enfoque holístico hacia la IA?
Comprender la IA con perspectivas equilibradas sobre la ética y el impacto.

🔗 ¿Qué dice la Biblia sobre la inteligencia artificial?
Examinando las perspectivas bíblicas sobre la tecnología y la creación humana.

Comparación rápida: De dónde extrae la IA 📊

No todas las fuentes son iguales, pero cada una cumple su función. Aquí tienes una vista rápida.

Tipo de fuente	¿Quién lo usa (IA)?	Costo/Valor	Por qué funciona (o no...)
Libros y artículos	Modelos de lenguaje grandes	No tiene precio (más o menos)	El conocimiento denso y estructurado envejece rápidamente.
Sitios web y blogs	Prácticamente todas las IA	Gratis (con ruido)	Variedad salvaje; mezcla de brillantez y basura absoluta.
Artículos académicos	IA con mucha investigación	A veces con muro de pago	Rigor + credibilidad, pero expresado en una jerga pesada.
Datos del usuario	IA personalizadas	Altamente sensible ⚠️	Sastrería impecable, pero con muchos dolores de cabeza en cuanto a privacidad.
Web en tiempo real	IA vinculadas a la búsqueda	Gratis (si está en línea)	Mantiene la información fresca; la desventaja es el riesgo de amplificación de rumores.

El universo de datos de entrenamiento 🌌

Esta es la fase de "aprendizaje infantil". Imaginen darle a un niño millones de cuentos, recortes de prensa y páginas de Wikipedia a la vez. Así es el preentrenamiento. En la práctica, los proveedores combinan datos públicos, fuentes con licencia y texto generado por el formador [2].

En la parte superior se incluyen ejemplos humanos seleccionados (buenas respuestas, malas respuestas, empujoncitos en la dirección correcta) incluso antes de que comience el refuerzo [1].

Advertencia sobre transparencia: las empresas no divulgan todos los detalles. Algunas barreras de seguridad son confidenciales (propiedad intelectual, cuestiones de seguridad), por lo que solo se obtiene una visión parcial de la situación real [2].

Búsqueda en tiempo real: El extra extra 🍒

Algunos modelos ahora pueden explorar más allá de su burbuja de entrenamiento. Esto se conoce como generación aumentada por recuperación (RAG), que consiste básicamente en extraer fragmentos de un índice en tiempo real o un almacén de documentos y luego integrarlos en la respuesta [5]. Ideal para información que cambia rápidamente, como titulares de noticias o precios de acciones.

¿El problema? Internet es a partes iguales genialidad y basura. Si los filtros o las comprobaciones de procedencia son deficientes, se corre el riesgo de que entren datos basura, justo lo que advierten los marcos de riesgo [3].

Una solución alternativa común: las empresas vinculan los modelos a sus propias bases de datos internas, de modo que las respuestas citan una política de RR. HH. vigente o un documento de producto actualizado en lugar de improvisar. Piense: menos momentos de sorpresa y respuestas más fiables.

Ajuste fino: el paso de pulido de la IA 🧪

Los modelos preentrenados sin procesar son torpes. Por eso se perfeccionan :

Enseñándoles a ser útiles, inofensivos y honestos (a través del aprendizaje de refuerzo a partir de la retroalimentación humana, RLHF) [1].
Lijado de bordes peligrosos o tóxicos (alineación) [1].
Adaptarse al tono, ya sea amistoso, formal o juguetonamente sarcástico.

No se trata tanto de pulir un diamante como de acorralar una avalancha estadística para que se comporte más como un interlocutor.

Los baches y los fracasos 🚧

No pretendamos que sea perfecto:

Alucinaciones : respuestas claras que son totalmente erróneas [2][3].
Sesgo : refleja patrones incorporados en los datos; incluso puede amplificarlos si no se controla [3][4].
No tengo experiencia de primera mano : puedo hablar de recetas de sopas, pero nunca he probado una [4].
Exceso de confianza : la prosa fluye como si supiera, incluso cuando no lo sabe. Los marcos de riesgo enfatizan la necesidad de descartar suposiciones [3].

Por qué se siente como saber 🧠

No tiene creencias, ni memoria en el sentido humano, y ciertamente no tiene yo. Sin embargo, como encadena oraciones con fluidez, el cerebro lo lee como si lo entendiera . Lo que ocurre es simplemente una predicción masiva del siguiente token : procesar billones de probabilidades en fracciones de segundo [2].

La vibración de la “inteligencia” es un comportamiento emergente; los investigadores lo llaman, un poco en tono de broma, el efecto del “loro estocástico”

Analogía para niños 🎨

Imagina un loro que ha leído todos los libros de la biblioteca. No capta las historias, pero puede remezclar las palabras para crear algo que parezca sabio. A veces da en el clavo; a veces, es un disparate, pero con suficiente estilo, no siempre se nota la diferencia.

En resumen: de dónde proviene la información de la IA 📌

En términos sencillos:

Datos de entrenamiento masivos (públicos + autorizados + generados por el entrenador) [2].
Ajuste fino con retroalimentación humana para dar forma al tono/comportamiento [1].
Sistemas de recuperación cuando se conectan a flujos de datos en vivo [5].

La IA no "sabe" nada; predice texto . Ese es a la vez su superpoder y su talón de Aquiles. ¿En resumen? Siempre verifique la información importante con una fuente confiable [3].

Referencias

Ouyang, L. et al. (2022). Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana (InstructGPT) . arXiv .
OpenAI (2023). Informe técnico GPT-4 : combinación de datos con licencia, públicos y generados por humanos; objetivo y limitaciones de la predicción del siguiente token. arXiv .
NIST (2023). Marco de Gestión de Riesgos de IA (AI RMF 1.0) : procedencia, confiabilidad y controles de riesgo. PDF .
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Sobre los peligros de los loros estocásticos: ¿Pueden los modelos lingüísticos ser demasiado grandes? (PDF )
Lewis, P. et al. (2020). Generación aumentada por recuperación para PNL de conocimiento intensivo . arXiv .

Encuentra la última IA en la tienda oficial de AI Assistant

Sobre nosotros

Volver al blog

País/región