Les modèles d’IA sont de plus en plus connectés à des outils et des données externes. Parmi les briques qui rendent cette évolution possible, on peut notamment mentionner le MCP, mais également la RAG (Retrieval-Augmented Generation). Cette dernière occupe une place centrale. Apparue avant le MCP et adoptée par l’ensemble de l’industrie, cette technique est aujourd’hui intégrée dans la plupart des assistants IA du marché. Pourtant, son fonctionnement reste souvent flou pour les professionnels qui l’utilisent au quotidien.
Les grands modèles de langage (LLM) qui alimentent ChatGPT, Claude ou Gemini sont entraînés sur d’immenses corpus de textes issus du web. Cette base de connaissances, aussi vaste soit-elle, présente deux limites structurelles. Elle est figée à la date d’entraînement du modèle et ne contient aucune donnée privée ou spécifique à une organisation. Lorsqu’un LLM est interrogé sur un sujet qu’il ne maîtrise pas ou pas suffisamment, il peut produire une réponse plausible mais fausse, un phénomène connu sous le nom d’hallucination.
C’est pour répondre à ce problème que la Retrieval-Augmented Generation (RAG) a été conceptualisée. Le terme apparaît pour la première fois en 2020, dans un article de recherche cosigné par Patrick Lewis, alors chercheur chez Meta et à l’University College London. Le principe est simple : plutôt que de se fier uniquement à sa mémoire interne, le modèle va d’abord consulter des documents externes pertinents avant de formuler sa réponse. Une approche qui permet de réduire les hallucinations, de fournir des informations à jour et de citer ses sources.
Le mécanisme de la RAG repose sur trois étapes distinctes :
Prenons un exemple concret. Un chatbot RH d’entreprise est interrogé : « Combien de jours de congé me reste-t-il ? » Sans RAG, le modèle ne dispose d’aucune information personnelle et risque d’inventer une réponse. Avec la RAG, il interroge la base documentaire interne à laquelle on lui a donné accès, récupère la politique de congés et le solde du collaborateur, puis formule une réponse sourcée.
Le fine-tuning consiste à réentraîner un modèle sur des données spécifiques pour modifier durablement son comportement. La RAG, elle, enrichit le contexte du modèle au moment de la requête, sans altérer ses paramètres. Le fine-tuning adapte le modèle, la RAG complète ses connaissances. Les deux approches sont complémentaires, le fine-tuning servant plutôt au ton et au format, la RAG à l’accès à des informations actualisées ou privées.
Pour les professionnels du digital, la RAG est déjà omniprésente, parfois sans qu’ils le sachent. Lorsque ChatGPT, Gemini ou Perplexity effectuent une recherche sur le web avant de répondre, le mécanisme s’appuie sur le même principe que la RAG, même s’il est appelé ici « grounding ». Lorsqu’un assistant IA d’entreprise interroge une base documentaire interne pour répondre à une question métier, c’est également de la RAG. Google, Amazon Web Services et la plupart des fournisseurs cloud proposent aujourd’hui des briques RAG clés en main dans leurs plateformes d’IA.
La technique n’est pas sans limite, car elle ne supprime pas totalement les hallucinations. Un modèle peut mal interpréter un document récupéré ou en extraire une information hors contexte. La qualité des réponses dépend directement de la qualité de la base documentaire sous-jacente. Et le coût en ressources (stockage des embeddings, calcul pour la recherche vectorielle, contexte élargi pour le modèle) représente également un poste à prendre en compte.
Integer iaculis ultrices velit nec tempor. Pellentesque aliquet est massa, sit amet tempor mi auctor nec. Mauris a nibh sed libero fermentum aliquet. Quisque sit amet faucibus magna. Do purus mi, commodo id commodo vel, im perdiet ut mauris. Ut ultricies arcu risus, males uada efficitur orci euismod in. Proin ele est risus, ac sodales nulla mollis vel. .
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat.
In nec libero luctus, aliquet turpis at, vehicula nisi. Cras eget mauris in nisl tempus lobortis.
Neque porro quisquam est, qui is dolor emr ipsum quia dolor sit amet the consec tetur is adipisci velit, sed Neque porro.