Chatbot IA avec accès à documents respectant la RGPD et la nLPD

Lire la thèse (EN)

Services

Outils et plateformes

Langages de programmation

TypeScript Python

Technologies

Docker OpenStack Astro Fast API LangChain Milvus Ollama Web Components

Dans le cadre de mon mémoire de Bachelor à la Haaga-Helia University of Applied Sciences - en savoir plus sur moi ici - j’ai conçu et développé un chatbot capable de répondre aux questions en se basant sur les documents internes d’une entreprise. La solution fonctionne entièrement en interne, sans dépendre de fournisseurs d’IA tiers, garantissant ainsi un contrôle total sur les données et les résultats.

Le projet a été réalisé pour Innovatim ➚, une société de consulting suisse dont les clients évoluent dans des secteurs où la confidentialité des données est une exigence absolue. Ils avaient besoin d’une solution capable de fonctionner intégralement sur leur propre infrastructure, de fournir des réponses fiables aux employés, et de s’intégrer facilement aux sites web clients ou aux outils internes.

Le projet

L’idée principale était simple : aider des employés à trouver rapidement des réponses cachées dans tout type de documents internes, via une interface de chat naturelle et conversationnelle. Voyez-le comme un ChatGPT privé, qui répond à des questions en se basant exclusivement sur les documents internes d’une entreprise.

Pour concrétiser cela, plusieurs défis pratiques ont dû être relevés. Cela comprenait le traitement de différents types de fichiers, comme les PDF et les documents Word, garantir que le chatbot fournisse des réponses précises tout en indiquant clairement leurs sources, et concevoir une interface intuitive et facile à utiliser dès le départ.

Dès le début, plusieurs exigences métier devaient aussi être prises en compte :

Le chatbot devait supporter plusieurs langues (anglais, français, allemand et italien).
Il devait être entièrement sécurisé, hébergé sur une infrastructure suisse, sans recours aux services d’IA basés sur le cloud.
Le design devait être épuré et facilement intégrable, permettant aux clients d’insérer aisément le chatbot dans leurs sites web ou plateformes internes.

J’ai abordé le projet avec une méthodologie légère et itérative, inspirée des principes agiles. Chaque fonctionnalité, du chatbot lui-même au tableau de bord d’administration, a été développée avec un fort focus sur l’expérience utilisateur. Mon objectif n’était pas seulement de créer un outil fonctionnel, mais un outil fiable, sécurisé et fluide à utiliser.

La solution

Le chatbot utilise la génération augmentée par récupération (RAG), ce qui signifie qu’il commence par rechercher dans les documents internes de l’entreprise les informations pertinentes à la question de l’utilisateur. Ensuite, il génère des réponses basées uniquement sur ces contenus retrouvés, garantissant des réponses précises et fondées sur les données propres à l’entreprise, sans faire appel à aucun service d’IA externe.

L’interface utilisateur a été conçue pour être claire et intuitive, tandis que le panneau d’administration offre les outils essentiels pour gérer les documents et changer de modèle.

Les utilisateurs peuvent importer des fichiers PDF, documents Word, tableaux Excel et des fichiers texte depuis l'interface d'administration.

Le prompt interne du chatbot est également modifiable depuis ce même tableau de bord.

Quand un utilisateur pose une question, le chatbot recherche des documents pertinents et s'en sert pour générer des réponses précises.

La sécurité est assurée par un accès par token pour le chatbot et une authentification simple pour le backend. Bien que le support multilingue soit encore limité, l’architecture du système permet une extension facile.

L’ensemble de la solution fonctionne dans des conteneurs Docker et est prêt à être déployé sur une infrastructure privée. Certaines fonctionnalités, comme l’affichage des sources des fichiers ou l’amélioration de la couverture linguistique, étaient hors du périmètre du projet mais sont prévues pour de futures mises à jour.

Voici un aperçu de l’architecture du système basée sur des conteneurs :

Diagramme montrant l'architecture du projet de chatbot web.

À la fin du mémoire, le prototype a atteint la majorité des objectifs initiaux. Il gère plusieurs formats de documents, supporte plusieurs langues, fonctionne entièrement sur une infrastructure locale et offre une expérience instantanément familière pour les utilisateurs.

Des améliorations restent possibles, notamment affiner le formatage des citations et simplifier davantage le processus de déploiement, mais la base est solide. Surtout, l’entreprise avec laquelle j’ai collaboré est satisfaite du résultat et explore activement les moyens d’étendre et de commercialiser cette solution.

Ce projet a montré que l’IA n’a pas besoin d’être une boîte noire hébergée dans le cloud. Avec la bonne approche, il est possible de créer des systèmes d’IA clairs, fiables et entièrement sous votre contrôle.

Lire la thèse (EN)