Glossaire IA

Qu’est-ce que le RAG (retrieval-augmented generation) ?

La génération augmentée par récupération (RAG) est une technique qui connecte un modèle de langage à vos propres sources de connaissances. À chaque question, le système récupère d’abord les documents les plus pertinents, puis les transmet au modèle avec la question. La réponse s’appuie sur vos données, et non uniquement sur ce que le modèle a appris à l’entraînement.

Comment fonctionne un pipeline RAG

Les documents sont ingérés, découpés en passages et indexés, généralement sous forme d’embeddings vectoriels qui capturent le sens plutôt que les mots-clés exacts. Au moment de la requête, le système récupère les passages les plus pertinents, les insère dans le contexte du modèle et lui demande de répondre à partir de ce matériau, idéalement en citant ses sources. Le modèle apporte la langue et le raisonnement ; votre base documentaire apporte les faits.

Pourquoi les entreprises choisissent le RAG

La connaissance d’une entreprise change tous les jours, et réentraîner un modèle à chaque mise à jour de procédure n’est ni pratique ni économique. Avec le RAG, mettre à jour la réponse revient à mettre à jour le document. Les réponses peuvent citer leurs sources, ce qui construit la confiance dont dépend l’adoption. Et comme la récupération a lieu au moment de la requête, un pipeline bien conçu respecte les permissions documentaires : chacun n’obtient que des réponses tirées de ce qu’il a le droit de lire. Pour injecter de la connaissance, le RAG mérite presque toujours d’être essayé avant le fine-tuning.

Sécurité et qualité : les points de vigilance

Deux décisions de conception dominent. D’abord, la récupération respectueuse des permissions n’est pas négociable : un index qui ignore les contrôles d’accès fera fuiter des documents à travers l’organigramme. Ensuite, le contenu récupéré est une entrée non fiable. Un document piégé peut contenir une injection de prompt indirecte que le modèle exécute en le lisant. La qualité des réponses est par ailleurs plafonnée par celle de la récupération. Un système RAG exige donc une évaluation continue et des tests adverses, bien au-delà de la démo de lancement.

Questions fréquentes

Quelle différence entre RAG et fine-tuning ?

Le RAG change ce que le modèle sait au moment de la question ; le fine-tuning change la façon dont le modèle se comporte. Utilisez le RAG pour les faits et documents qui évoluent. Envisagez le fine-tuning pour le ton, le format ou un comportement métier. Beaucoup de systèmes en production combinent les deux.

Le RAG élimine-t-il les hallucinations ?

Il les réduit nettement quand la récupération fonctionne, car le modèle a le bon matériau sous les yeux. Il ne les élimine pas : le modèle peut mal lire une source ou combler les vides. Citations, contrôles d’ancrage et évaluation continue restent nécessaires.

Quelles sources de données peut-on brancher ?

Presque tout ce qui s’indexe : wikis, espaces documentaires, tickets, CRM, procédures, contrats, bases de données. Les vraies contraintes sont la qualité des données et le contrôle d’accès, bien plus que le volume.

Déployez l’IA en toute confiance

Code75 déploie l’IA en production dans les équipes des entreprises, avec les tests de sécurité et la gouvernance qui vont avec. Votre interlocuteur sera un ingénieur.