Statpedia

Metodológia

Statpedia kombinuje veľký jazykový model (LLM) s deterministickým vyhľadávaním v autoritatívnej databáze ŠÚ SR. Cieľ: jazyk si berieme od LLM, čísla výhradne od ŠÚ SR.

Pipeline

  1. Intent extraction — Claude Haiku rozparsuje otázku na štruktúrovaný JSON (metrika, región, obdobie).
  2. CatalogValidator — kód overí, že dotaz má pokrytie v DATAcube (cube + dimenzie + dostupné hodnoty).
  3. Tool loop — Claude Sonnet volá tooly search_tables, fetch_data, compute.
  4. submit_answer — finalizér vynúti štruktúrovanú odpoveď s citáciou zdrojového cube ID.

Aktuálne metriky

  • Composite score: 87,5 %
  • Value accuracy: 90 %
  • Halucinácie: 1 z 200 (čestné odmietnutie keď dáta nemáme)
  • Priemerná latencia: ~22 s / query

Limitácie

Statpedia odpovedá iba z dát, ktoré sú v DATAcube. Ak ŠÚ SR metriku neeviduje (napr. priemerná mzda v obci pod 500 obyvateľov), agent to čestne povie, namiesto vymýšľania čísla.