Rotterdam · 51°55′N · 4°28′O · Atelier nr. 004
1 plek · Q3 2026 Klantportaal → MMXXVI
Pillar · AI-integratie5 min lezen

Wat is een RAG-chatbot,
en waarom hallucineert hij niet?

Een RAG-chatbot (Retrieval-Augmented Generation) is een AI-chatbot die jouw eigen documenten als kennisbron gebruikt. In plaats van te "raden" wat het antwoord is, zoekt hij eerst de meest relevante stukken uit jouw bronnen en formuleert dan een antwoord op basis van alleen die fragmenten. Hallucinaties verdwijnen vrijwel volledig.

RAG-pipeline: bronnen, retrieval, antwoord met bron-citatie
RAG · pgvector · Anthropic ClaudeAI IN PRODUCTIE · Wat is RAG?

Hoe verschilt het van ChatGPT?

ChatGPT antwoordt op basis van wat het tijdens training heeft geleerd — algemeen internet-publieke informatie tot een bepaalde datum. Een RAG-chatbot antwoordt op basis van jouw eigen documenten: jouw retourbeleid, jouw productcatalogus, jouw FAQ. Geen guesswork, alleen wat in jouw bronnen staat.

Waarom hallucineert hij niet?

Drie mechanismen werken samen: (1) retrieval beperkt context tot relevante fragmenten; (2) de prompt instrueert "antwoord alleen op basis van deze fragmenten, anders zeg je het niet te weten"; (3) de bron-citatie maakt fouten direct zichtbaar.

Veelgestelde vragen

Q1Geschikt voor advocatenkantoor / zorg?+
Ja, mits goed gebouwd. EU-data residency, zero-retention API's, audit-logging — allemaal standaard implementeerbaar.
Q2Wat als bronnen veranderen?+
Re-indexering werkt incrementeel. Nieuwe of gewijzigde bronnen worden binnen 5 minuten beschikbaar voor de chatbot.

Verdieping

Verdieping: waarom AI in NL-mkb anders speelt

Voor Nederlandse mkb-bedrijven is de keuze om AI in productie te zetten sinds 2024 fundamenteel veranderd. Drie ontwikkelingen liggen daaraan ten grondslag: EU-data-residency wordt door alle grote LLM-providers nu aangeboden (Anthropic op AWS Frankfurt en GCP EU, OpenAI op Azure EU), zero-retention API-plannen zijn standaard geworden voor enterprise-tier, en de kosten per query zijn met 5–10x gedaald sinds 2023. Wat twee jaar geleden alleen voor scale-ups haalbaar was, draait nu binnen het mkb-budget.

De grootste praktijk-misvatting in deze ronde van AI-adoptie: founders denken dat ze "een model moeten trainen". In 99% van de mkb-toepassingen klopt dat niet — wat je doet is retrieval-augmented generation bovenop een bestaand model. Geen training, geen ML-expertise, geen GPU-cluster. Wel: heldere bronnen, een Postgres-database met pgvector, en discipline in prompts.

70%
Vragen die RAG-bot afvangt
€0.002
EUR per Claude-Haiku query
3 wk
Bouw tot productie
99%
EU-data-residency mogelijk

Stappenplan: van idee tot productie-AI

1Spike-week (1 week)+
Geen €15k commitment vooraf. We starten met een week (€2k, verrekenbaar) waarin we 20–50 voorbeeldvragen verzamelen, een prototype bouwen en accuracy meten. Pas dan beslis je over verdere bouw.
2Bronnen voorbereiden+
Documentatie, FAQ, productdata, support-tickets — alles wat antwoorden zou moeten voeden. Niet perfect: één goede bron is meer waard dan vijf middelmatige. Bronnen blijven in jouw eigen Postgres.
3Indexeren met pgvector+
Chunking (500–800 tokens), embeddings via OpenAI text-embedding-3-large, opslag in Postgres met pgvector. Volledig in EU-regio. Re-indexering automatisch bij brongewijzigingen.
4Productie-pipeline+
Edge function (Vercel of Cloudflare) doet retrieval + Claude/GPT-call + bron-citatie. Streaming responses naar de client. Logging per vraag voor accuracy-tuning. Fallback naar tweede provider bij downtime.
5Monitoring & tweaken+
Thumbs-up/down per antwoord, lage-confidence-vragen worden gelogd voor handmatige review. Maandelijkse prompt-iteratie op basis van echte vragen — typisch +10% accuracy in eerste 90 dagen.

Welk model wanneer — een eerlijke keuzehulp

Claude (Anthropic)
GPT-4o (OpenAI)
Sterk in: long-context redenering, code, coherente synthese, tabellen lezen
Sterk in: latency, function calling, breed ecosysteem
Context window: 200k tokens (Claude 3.7 Sonnet)
Context window: 128k tokens
Prijs: $3 / $15 per 1M tokens
Prijs: $2,50 / $10 per 1M tokens
Goedkoop alternatief: Claude Haiku ($0,25 / $1,25)
Goedkoop alternatief: GPT-4o-mini ($0,15 / $0,60)
EU-residency: AWS Frankfurt + GCP EU
EU-residency: Azure EU
De Bron-of-Halve-Bron-regel voor RAG
Een RAG-systeem is nooit beter dan zijn slechtste bron. Voeg liever 10 goed-gecontroleerde documenten toe dan 100 ruwe exports. Bij elke vraag waar de bot fout zit, vraag eerst: zat het antwoord überhaupt eenduidig in een bron? Pas daarna kijk je naar prompts of model.
Houd dit als debug-volgorde aan: bronnen → chunking → prompt → model. In die volgorde zit 80% van alle accuracy-issues.

Veelgestelde vragen

Q1Wat als de chatbot iets fout zegt?+
Met goede prompt-discipline (alleen antwoorden uit retrieved fragments) en bron-citatie bij elk antwoord is het effect minimaal. Voor 100% nauwkeurigheid op kritieke onderwerpen: escalatie naar mens. Bij twijfel altijd "ik weet het niet zeker" terug.
Q2Hoeveel kost een typische maand in productie?+
Voor een RAG-chatbot met 5.000 vragen per maand op Claude Haiku: ongeveer €10–€15. Met cache-hitting en prompt-optimalisatie nog minder. Vision-pipelines voor facturen: €0,01–€0,05 per document. Eerste maand-rekening valt vrijwel altijd lager uit dan vooraf gedacht.
Q3Kan dit voor advocatenkantoor of zorgpraktijk?+
Ja, mits goed gebouwd. EU-data residency, zero-retention plannen, audit-logging per query, DPA standaard. Voor extreem gevoelige sectoren is on-premise Llama 3.1 het alternatief — maar voor 95% van mkb is API met EU-residency voldoende.
Q4Hoe vaak moet ik bronnen updaten?+
Re-indexering werkt incrementeel. Wijzigingen worden binnen 5 minuten beschikbaar voor de chatbot. Voor bronnen in Notion/Drive/Dropbox kun je auto-watch instellen — geen handmatige re-uploads nodig.
Q5Wat als Anthropic of OpenAI offline gaat?+
Production-pipelines hebben fallback naar een tweede provider. Bij volledige downtime krijgt de gebruiker een nette "we zijn even offline"-melding, geen crash. Multi-provider setup is standaard onderdeel van het bouwwerk.