Wat is een RAG-chatbot, en waarom hallucineert hij niet?

Hoe verschilt het van ChatGPT?

ChatGPT antwoordt op basis van wat het tijdens training heeft geleerd — algemeen internet-publieke informatie tot een bepaalde datum. Een RAG-chatbot antwoordt op basis van jouw eigen documenten: jouw retourbeleid, jouw productcatalogus, jouw FAQ. Geen guesswork, alleen wat in jouw bronnen staat.

Waarom hallucineert hij niet?

Drie mechanismen werken samen: (1) retrieval beperkt context tot relevante fragmenten; (2) de prompt instrueert "antwoord alleen op basis van deze fragmenten, anders zeg je het niet te weten"; (3) de bron-citatie maakt fouten direct zichtbaar.

Veelgestelde vragen

Q1Geschikt voor advocatenkantoor / zorg?+

Ja, mits goed gebouwd. EU-data residency, zero-retention API's, audit-logging — allemaal standaard implementeerbaar.

Q2Wat als bronnen veranderen?+

Re-indexering werkt incrementeel. Nieuwe of gewijzigde bronnen worden binnen 5 minuten beschikbaar voor de chatbot.

Verdieping

Verdieping: waarom AI in NL-mkb anders speelt

Voor Nederlandse mkb-bedrijven is de keuze om AI in productie te zetten sinds 2024 fundamenteel veranderd. Drie ontwikkelingen liggen daaraan ten grondslag: EU-data-residency wordt door alle grote LLM-providers nu aangeboden (Anthropic op AWS Frankfurt en GCP EU, OpenAI op Azure EU), zero-retention API-plannen zijn standaard geworden voor enterprise-tier, en de kosten per query zijn met 5–10x gedaald sinds 2023. Wat twee jaar geleden alleen voor scale-ups haalbaar was, draait nu binnen het mkb-budget.

De grootste praktijk-misvatting in deze ronde van AI-adoptie: founders denken dat ze "een model moeten trainen". In 99% van de mkb-toepassingen klopt dat niet — wat je doet is retrieval-augmented generation bovenop een bestaand model. Geen training, geen ML-expertise, geen GPU-cluster. Wel: heldere bronnen, een Postgres-database met pgvector, en discipline in prompts.

70%

Vragen die RAG-bot afvangt

€0.002

EUR per Claude-Haiku query

3 wk

Bouw tot productie

99%

EU-data-residency mogelijk

Stappenplan: van idee tot productie-AI

1Spike-week (1 week)+

Geen €15k commitment vooraf. We starten met een week (€2k, verrekenbaar) waarin we 20–50 voorbeeldvragen verzamelen, een prototype bouwen en accuracy meten. Pas dan beslis je over verdere bouw.

2Bronnen voorbereiden+

Documentatie, FAQ, productdata, support-tickets — alles wat antwoorden zou moeten voeden. Niet perfect: één goede bron is meer waard dan vijf middelmatige. Bronnen blijven in jouw eigen Postgres.

3Indexeren met pgvector+

Chunking (500–800 tokens), embeddings via OpenAI text-embedding-3-large, opslag in Postgres met pgvector. Volledig in EU-regio. Re-indexering automatisch bij brongewijzigingen.

4Productie-pipeline+

Edge function (Vercel of Cloudflare) doet retrieval + Claude/GPT-call + bron-citatie. Streaming responses naar de client. Logging per vraag voor accuracy-tuning. Fallback naar tweede provider bij downtime.

5Monitoring & tweaken+

Thumbs-up/down per antwoord, lage-confidence-vragen worden gelogd voor handmatige review. Maandelijkse prompt-iteratie op basis van echte vragen — typisch +10% accuracy in eerste 90 dagen.

Welk model wanneer — een eerlijke keuzehulp

Claude (Anthropic)

GPT-4o (OpenAI)

Sterk in: long-context redenering, code, coherente synthese, tabellen lezen

Sterk in: latency, function calling, breed ecosysteem

Context window: 200k tokens (Claude 3.7 Sonnet)

Context window: 128k tokens

Prijs: $3 / $15 per 1M tokens

Prijs: $2,50 / $10 per 1M tokens

Goedkoop alternatief: Claude Haiku ($0,25 / $1,25)

Goedkoop alternatief: GPT-4o-mini ($0,15 / $0,60)

EU-residency: AWS Frankfurt + GCP EU

EU-residency: Azure EU

De Bron-of-Halve-Bron-regel voor RAG

Een RAG-systeem is nooit beter dan zijn slechtste bron. Voeg liever 10 goed-gecontroleerde documenten toe dan 100 ruwe exports. Bij elke vraag waar de bot fout zit, vraag eerst: zat het antwoord überhaupt eenduidig in een bron? Pas daarna kijk je naar prompts of model.

Houd dit als debug-volgorde aan: bronnen → chunking → prompt → model. In die volgorde zit 80% van alle accuracy-issues.

Veelgestelde vragen

Q1Wat als de chatbot iets fout zegt?+

Met goede prompt-discipline (alleen antwoorden uit retrieved fragments) en bron-citatie bij elk antwoord is het effect minimaal. Voor 100% nauwkeurigheid op kritieke onderwerpen: escalatie naar mens. Bij twijfel altijd "ik weet het niet zeker" terug.

Q2Hoeveel kost een typische maand in productie?+

Voor een RAG-chatbot met 5.000 vragen per maand op Claude Haiku: ongeveer €10–€15. Met cache-hitting en prompt-optimalisatie nog minder. Vision-pipelines voor facturen: €0,01–€0,05 per document. Eerste maand-rekening valt vrijwel altijd lager uit dan vooraf gedacht.

Q3Kan dit voor advocatenkantoor of zorgpraktijk?+

Ja, mits goed gebouwd. EU-data residency, zero-retention plannen, audit-logging per query, DPA standaard. Voor extreem gevoelige sectoren is on-premise Llama 3.1 het alternatief — maar voor 95% van mkb is API met EU-residency voldoende.

Q4Hoe vaak moet ik bronnen updaten?+

Re-indexering werkt incrementeel. Wijzigingen worden binnen 5 minuten beschikbaar voor de chatbot. Voor bronnen in Notion/Drive/Dropbox kun je auto-watch instellen — geen handmatige re-uploads nodig.

Q5Wat als Anthropic of OpenAI offline gaat?+

Production-pipelines hebben fallback naar een tweede provider. Bij volledige downtime krijgt de gebruiker een nette "we zijn even offline"-melding, geen crash. Multi-provider setup is standaard onderdeel van het bouwwerk.