Metodológia
Statpedia kombinuje veľký jazykový model (LLM) s deterministickým vyhľadávaním v autoritatívnej databáze ŠÚ SR. Cieľ: jazyk si berieme od LLM, čísla výhradne od ŠÚ SR.
Pipeline
- Intent extraction — Claude Haiku rozparsuje otázku na štruktúrovaný JSON (metrika, región, obdobie).
- CatalogValidator — kód overí, že dotaz má pokrytie v DATAcube (cube + dimenzie + dostupné hodnoty).
- Tool loop — Claude Sonnet volá tooly
search_tables,fetch_data,compute. - submit_answer — finalizér vynúti štruktúrovanú odpoveď s citáciou zdrojového cube ID.
Aktuálne metriky
- Composite score: 87,5 %
- Value accuracy: 90 %
- Halucinácie: 1 z 200 (čestné odmietnutie keď dáta nemáme)
- Priemerná latencia: ~22 s / query
Limitácie
Statpedia odpovedá iba z dát, ktoré sú v DATAcube. Ak ŠÚ SR metriku neeviduje (napr. priemerná mzda v obci pod 500 obyvateľov), agent to čestne povie, namiesto vymýšľania čísla.