Embeddings voor slimme zoekopdrachten: hoe het werkt en wanneer

Wanneer wel, wanneer geen embeddings?

Wel: zoeken op betekenis (FAQ, support-archief, productcatalogus). Niet: exacte ID/SKU-zoek, structured filtering, datum-ranges. Vaak combineer je beide — hybrid search met BM25 + embedding rerank.

Q1Welke embedding-model?+

OpenAI text-embedding-3-large is in 2026 het pragmatische default. Voor on-premise: BGE of E5.

Q2Kosten?+

Indexeren: ~$0,13 per 1M tokens. Voor 10k documenten van gemiddeld 1k tokens: ~$1,30.

Verdieping

Verdieping: waarom AI in NL-mkb anders speelt

Voor Nederlandse mkb-bedrijven is de keuze om AI in productie te zetten sinds 2024 fundamenteel veranderd. Drie ontwikkelingen liggen daaraan ten grondslag: EU-data-residency wordt door alle grote LLM-providers nu aangeboden (Anthropic op AWS Frankfurt en GCP EU, OpenAI op Azure EU), zero-retention API-plannen zijn standaard geworden voor enterprise-tier, en de kosten per query zijn met 5–10x gedaald sinds 2023. Wat twee jaar geleden alleen voor scale-ups haalbaar was, draait nu binnen het mkb-budget.

De grootste praktijk-misvatting in deze ronde van AI-adoptie: founders denken dat ze "een model moeten trainen". In 99% van de mkb-toepassingen klopt dat niet — wat je doet is retrieval-augmented generation bovenop een bestaand model. Geen training, geen ML-expertise, geen GPU-cluster. Wel: heldere bronnen, een Postgres-database met pgvector, en discipline in prompts.

70%

Vragen die RAG-bot afvangt

€0.002

EUR per Claude-Haiku query

3 wk

Bouw tot productie

99%

EU-data-residency mogelijk

Stappenplan: van idee tot productie-AI

1Spike-week (1 week)+

Geen €15k commitment vooraf. We starten met een week (€2k, verrekenbaar) waarin we 20–50 voorbeeldvragen verzamelen, een prototype bouwen en accuracy meten. Pas dan beslis je over verdere bouw.

2Bronnen voorbereiden+

Documentatie, FAQ, productdata, support-tickets — alles wat antwoorden zou moeten voeden. Niet perfect: één goede bron is meer waard dan vijf middelmatige. Bronnen blijven in jouw eigen Postgres.

3Indexeren met pgvector+

Chunking (500–800 tokens), embeddings via OpenAI text-embedding-3-large, opslag in Postgres met pgvector. Volledig in EU-regio. Re-indexering automatisch bij brongewijzigingen.

4Productie-pipeline+

Edge function (Vercel of Cloudflare) doet retrieval + Claude/GPT-call + bron-citatie. Streaming responses naar de client. Logging per vraag voor accuracy-tuning. Fallback naar tweede provider bij downtime.

5Monitoring & tweaken+

Thumbs-up/down per antwoord, lage-confidence-vragen worden gelogd voor handmatige review. Maandelijkse prompt-iteratie op basis van echte vragen — typisch +10% accuracy in eerste 90 dagen.

Welk model wanneer — een eerlijke keuzehulp

Claude (Anthropic)

GPT-4o (OpenAI)

Sterk in: long-context redenering, code, coherente synthese, tabellen lezen

Sterk in: latency, function calling, breed ecosysteem

Context window: 200k tokens (Claude 3.7 Sonnet)

Context window: 128k tokens

Prijs: $3 / $15 per 1M tokens

Prijs: $2,50 / $10 per 1M tokens

Goedkoop alternatief: Claude Haiku ($0,25 / $1,25)

Goedkoop alternatief: GPT-4o-mini ($0,15 / $0,60)

EU-residency: AWS Frankfurt + GCP EU

EU-residency: Azure EU

De Bron-of-Halve-Bron-regel voor RAG

Een RAG-systeem is nooit beter dan zijn slechtste bron. Voeg liever 10 goed-gecontroleerde documenten toe dan 100 ruwe exports. Bij elke vraag waar de bot fout zit, vraag eerst: zat het antwoord überhaupt eenduidig in een bron? Pas daarna kijk je naar prompts of model.

Houd dit als debug-volgorde aan: bronnen → chunking → prompt → model. In die volgorde zit 80% van alle accuracy-issues.

Veelgestelde vragen

Q1Wat als de chatbot iets fout zegt?+

Met goede prompt-discipline (alleen antwoorden uit retrieved fragments) en bron-citatie bij elk antwoord is het effect minimaal. Voor 100% nauwkeurigheid op kritieke onderwerpen: escalatie naar mens. Bij twijfel altijd "ik weet het niet zeker" terug.

Q2Hoeveel kost een typische maand in productie?+

Voor een RAG-chatbot met 5.000 vragen per maand op Claude Haiku: ongeveer €10–€15. Met cache-hitting en prompt-optimalisatie nog minder. Vision-pipelines voor facturen: €0,01–€0,05 per document. Eerste maand-rekening valt vrijwel altijd lager uit dan vooraf gedacht.

Q3Kan dit voor advocatenkantoor of zorgpraktijk?+

Ja, mits goed gebouwd. EU-data residency, zero-retention plannen, audit-logging per query, DPA standaard. Voor extreem gevoelige sectoren is on-premise Llama 3.1 het alternatief — maar voor 95% van mkb is API met EU-residency voldoende.

Q4Hoe vaak moet ik bronnen updaten?+

Re-indexering werkt incrementeel. Wijzigingen worden binnen 5 minuten beschikbaar voor de chatbot. Voor bronnen in Notion/Drive/Dropbox kun je auto-watch instellen — geen handmatige re-uploads nodig.

Q5Wat als Anthropic of OpenAI offline gaat?+

Production-pipelines hebben fallback naar een tweede provider. Bij volledige downtime krijgt de gebruiker een nette "we zijn even offline"-melding, geen crash. Multi-provider setup is standaard onderdeel van het bouwwerk.

Lange-termijn perspectief: AI in productie hoort bij je stack

De keuze om AI in productie te zetten is in 2026 vergelijkbaar met de keuze om in 2014 een API-laag op je product te zetten: het voelt nog optioneel, maar wordt binnen 18 maanden de norm. Bedrijven die nu een werkende RAG-laag hebben — gevoed met eigen documentatie, draaiend op zero-retention plannen, met audit-logs per query — bouwen een asset die door elke volgende productontwikkeling heen meegroeit.

De fout die je nu nog kunt maken is te groots beginnen. Niet "we bouwen een AI-strategie", wel "we lossen één concreet probleem op met AI". Een chatbot die 60% van eerste-lijn klantvragen afhandelt is meer waard dan een grandioos plan voor een “AI-platform” dat over 18 maanden nog niet live is. Klein beginnen, meten, uitbreiden — die volgorde is in deze fase nog steeds doorslaggevend.

Drie ontwikkelingen die de komende 12 maanden het speelveld verschuiven: (a) kosten van inference dalen met nog eens 5–10× door competitie tussen Anthropic, OpenAI, Google en open-source modellen; (b) tool-use en function calling worden volwassen genoeg om echte AI-agents te bouwen voor specifieke workflows; (c) EU-data residency wordt verplicht voor steeds meer sectoren (zorg, juridiek, finance) — wie nu al EU-conform bouwt heeft geen migratie-pijn straks.

Concreet voorbeeld uit een lopend project

Een Rotterdams advocatenkantoor (8 advocaten) implementeerde eind 2025 een eerste-lijns AI-screening op basis van Claude + RAG over hun openbare publicaties en standaard-voorlichting. Resultaat na 90 dagen: 62% van inkomende leadgesprekken doorlopen door de chatbot zonder eerstelijns-jurist, 28% kwamen al voorgesorteerd bij de juiste advocaat met een gestructureerd intake-document. Bouwbudget: €11k.

Wat het project liet werken: bronnen waren strikt beperkt tot publiek beschikbare informatie (geen NDA-stof in retrieval), de chatbot weigerde expliciet juridisch advies te geven en escaleerde altijd naar kantoor, en bij elk antwoord stond een bronvermelding klikbaar. Geen hallucinaties in 90 dagen productie, want het model kreeg expliciet instructie om alleen te antwoorden vanuit de retrieved fragments.

Het mooie is dat de eerste lead die de bot kwalificeerde een dossier opleverde van €18k. Bouwkosten waren in week 4 al terugverdiend. — managing partner, lopend project Rotterdam