Auto-héberger Ollama + Flowise : guide complet pour PME
Depuis que ChatGPT a débarqué, tous mes clients PME me posent la même question : « On peut avoir un truc comme ça chez nous ? » La réponse courte : oui. La réponse longue : oui, mais pas n'importe comment.
Ça fait maintenant un an que je déploie des stacks IA auto-hébergées pour des PME. Ollama pour faire tourner les modèles, Flowise pour créer des workflows sans coder. Voici ce que j'ai appris.
Pourquoi auto-héberger ?
La question revient à chaque fois : « Pourquoi ne pas utiliser l'API d'OpenAI directement ? » Trois raisons.
La confidentialité. Quand un cabinet d'avocats veut analyser des contrats avec un LLM, envoyer ces contrats sur les serveurs d'OpenAI, ça pose un problème. Avec Ollama, les données ne sortent jamais du serveur. Elles ne transitent même pas par internet.
Les coûts prévisibles. L'API GPT-4, c'est 30$ les 1M de tokens en entrée. Pour une PME qui traite 500 documents par jour, la facture grimpe vite. Un serveur dédié avec un GPU correct, c'est un coût fixe. Au bout de 3-4 mois, c'est rentabilisé.
La latence. En local, la réponse arrive en 200-500ms. Via l'API, comptez 2-5 secondes. Quand c'est intégré dans un workflow métier, ça change tout.
Le matériel minimum
Oubliez les configs à 15 000€ avec 4 GPU A100 qu'on voit dans les tutos. Pour une PME, voici ce qui fonctionne concrètement :
- Pour du 7B-13B (suffisant pour 90% des cas) : un GPU avec 8-12 Go de VRAM. Une RTX 3060 12 Go d'occasion à 250€ fait très bien le travail.
- RAM : 32 Go minimum. Le modèle se charge en VRAM, mais le contexte déborde en RAM système.
- Stockage : un SSD NVMe de 500 Go. Les modèles font entre 4 et 8 Go chacun.
- CPU : n'importe quel processeur récent avec au moins 8 cœurs. Le CPU ne fait quasi rien quand le GPU est là.
Budget total pour un serveur dédié chez un hébergeur avec GPU : entre 80 et 150€/mois. Chez Hetzner, vous trouvez des configs GPU à partir de 100€/mois.
Installation d'Ollama
C'est la partie la plus simple. Sur Debian 12 :
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
ollama pull nomic-embed-text
Le premier modèle pour la génération de texte, le second pour l'embedding (recherche sémantique dans vos documents). C'est tout. Ollama tourne comme un service systemd, il écoute sur le port 11434.
Un point important : par défaut, Ollama n'écoute que sur localhost. Si Flowise tourne sur le même serveur (et il devrait), c'est parfait. Sinon, ne l'exposez jamais directement sur internet. Jamais.
Flowise : l'interface visuelle
Flowise, c'est un outil open source qui permet de créer des « chatflows » — des chaînes de traitement IA — en glissant-déposant des blocs. Pas besoin de coder. Le commercial peut créer son propre assistant qui fouille dans la base documentaire, le RH peut automatiser le tri des CV.
Je le déploie toujours en Docker :
docker run -d --name flowise \
--restart unless-stopped \
-p 3000:3000 \
-v flowise_data:/root/.flowise \
-e FLOWISE_USERNAME=admin \
-e FLOWISE_PASSWORD=VotreMotDePasseFort \
flowiseai/flowise
Derrière un reverse proxy Nginx avec HTTPS, bien sûr. Et avec une authentification — Flowise expose une API qui permet de faire tourner n'importe quoi sur votre serveur.
Le cas d'usage qui marche le mieux
Sur la dizaine de déploiements que j'ai faits, le cas d'usage qui apporte le plus de valeur, systématiquement, c'est le RAG documentaire (Retrieval-Augmented Generation).
Le principe : vous alimentez une base vectorielle avec vos documents internes (procédures, contrats, documentation technique, historique de tickets). Quand un utilisateur pose une question, le système cherche les passages pertinents dans la base, les injecte dans le prompt du LLM, et le LLM répond en se basant sur vos données.
Concrètement, ça donne un assistant qui connaît votre entreprise. « Quelle est la procédure pour gérer un retour produit ? » → réponse en 2 secondes, avec la source du document citée.
Les pièges à éviter
Le modèle trop gros. Un client voulait absolument du Llama 70B « parce que c'est le meilleur ». Sur un GPU 12 Go, le modèle tourne en quantization 4-bit avec une lenteur insupportable. Un Llama 8B bien prompté donne des résultats excellents pour 95% des tâches métier.
Pas de monitoring. Le GPU a une fâcheuse tendance à surchauffer quand 15 personnes posent des questions en même temps. Un nvidia-smi dans un cron qui alerte au-dessus de 85°C, c'est le minimum vital.
Les attentes irréalistes. Un LLM 8B auto-hébergé, ce n'est pas GPT-4. Il va se tromper, halluciner, et parfois répondre à côté. Le RAG atténue énormément ce problème, mais il faut briefer les utilisateurs : c'est un assistant, pas un oracle.
En résumé
Auto-héberger une stack IA pour une PME, c'est faisable, abordable, et utile. Pas pour remplacer ChatGPT — pour avoir un outil interne qui connaît votre métier et ne partage vos données avec personne.
Le setup initial prend entre 1 et 3 jours selon la complexité. La maintenance ? Un ollama pull quand un nouveau modèle sort, et un œil sur les logs de temps en temps. Rien de sorcier.