La generación aumentada por recuperación (RAG) es una técnica de la inteligencia artificial (IA) generativa enfocada en mejorar la calidad, la precisión y la confiabilidad de las respuestas generadas por los grandes modelos de lenguaje (LLM) que es capaz proporcionar respuestas contextualmente adecuadas gracias a la recuperación de información proveniente de bases o fuentes externas de conocimiento, así como basar dichas respuestas en datos extremadamente recientes.
Me quedo con lo escrito en el blog de https://datos.gob.es/es/ “Haciendo un símil con el ámbito médico, podríamos decir que el uso de RAG es como si un médico, con amplia experiencia y, por lo tanto, altamente entrenado, además de los conocimientos adquiridos durante su formación académica y años de experiencia, tuviera acceso rápido y sin esfuerzo a los últimos estudios, análisis y bases de datos médicas al instante, antes de proporcionar un diagnóstico. La formación académica y los años de experiencia equivalen al entrenamiento del LLM y el “mágico” acceso a los últimos estudios y bases de datos específicas pueden asimilarse a lo que proporciona las técnicas RAG.”

¿Cómo funciona la generación aumentada de recuperación?
Toda la información de la que dispone una organización: bases de datos estructuradas, PDF y otros documentos no estructurados, blogs, fuentes de noticias y transcripciones de chat de sesiones de servicio al cliente pasadas. En la RAG, esta gran cantidad de datos dinámicos se traduce a un formato común y se almacena en una biblioteca de conocimientos accesible por el sistema de IA generativa.
Los datos de esa biblioteca de conocimientos se procesan en representaciones numéricas utilizando un tipo especial de algoritmo llamado modelo de lenguaje embebido y se almacenan en una base de datos vectorial, en la que se puede buscar rápidamente para recuperar la información contextual correcta. Esto significa que las fuentes pueden ser citadas, por lo que, si una de ellas presenta un error, este se puede corregir o eliminar rápidamente para que las consultas posteriores no devuelvan esa información incorrecta.
RAG puede aprovechar la información recuperada para personalizar las respuestas. Por ejemplo, un chatbot de servicio al cliente podría usar RAG para acceder al historial de compras de un usuario, lo que le permitiría personalizar recomendaciones o solucionar problemas específicamente para ese usuario.
RAG también ayuda a los modelos de IA conversacional a manejar preguntas inesperadas que dejan perplejos a los chatbots tradicionales. Las herramientas RAG pueden buscar información relevante incluso para consultas personalizadas y abiertas, lo que aumenta la capacidad de los LLM para manejar una gama más amplia de consultas de los usuarios. Al incorporar información externa, RAG amplía la base de conocimiento de la IA conversacional y le permite comprender los temas en un contexto más amplio. Esto conduce a respuestas más completas e informativas en general. Casos de uso clave para la IA conversacional de RAG
Principales beneficios de la generación aumentada de recuperación
- Precisión Contextual: La RAG puede proporcionar respuestas contextualmente adecuadas al combinar la generación de lenguaje natural con datos específicos.
- Actualización en Tiempo Real: Puede acceder a información actualizada sin necesidad de reentrenar el modelo.
- Mejora de Respuestas: La RAG supera las limitaciones de los modelos generativos al incorporar datos externos.

Retos importantes de la generación aumentada de recuperación
RAG es una tecnología relativamente nueva, lanzada en 2020, los desarrolladores de IA aún están aprendiendo a implementar mejor sus mecanismos de recuperación de información en la IA generativa.
Estos son algunos de los desafíos clave:
- Garantizar que los datos permanezcan privados y seguros, debe limitarse el acceso sólo a los datos autorizados. La solución RAG debe emplear enmascaramiento dinámico (pseudonimización) de datos para proteger los datos de conformidad con las regulaciones de privacidad de datos.
- Elegir el mejor VectorStore o Database en el que almacenar estos embeddings para que sea escalable y ágil.
- Determinar la mejor forma de modelar tokenizado y embedding. Cuando RAG inyecta datos no estructurados (como artículos, manuales y otros documentos) en su LLM desde sus bases de conocimiento, a menudo utiliza la búsqueda semántica. La búsqueda semántica es una técnica de búsqueda integrada en bases de datos vectoriales que intenta comprender el significado de las palabras utilizadas en una consulta de búsqueda y el contenido web. En términos de RAG, esto es relevante solo para los documentos.
- Establecer procesos para gestionar los informes de imprecisiones y corregir o eliminar esas fuentes de información en el sistema RAG.