všezvěd 0.1 aneb jak na data o školách
tl;dr: nový balík v R na využití dat z rejstříku škol
Update: doplnil jsem technický text o tom, jak část balíku funguje (v angličtině).
Základní data o školách jsou labyrint.
I vyšel sem od sebe sám a ohlédati se počal mysle, odkud a jak začíti.
(Technicky vzato se bavíme o rejstříku škol a školských zařízení a nepřímo i o rejstříku školských právnických osob.)
Můžete mít data o školských právnických osobách, o školských zařízeních, o umístěních školských zařízení, nebo o oborech, které se v jednotlivých školách učí.
Anebo můžete mít základní kontaktní údaje.
Dohromady to nejde.
Viděl sem všecky skutky, kteréž se dějí pod sluncem a aj všecko jest marnost a trápení ducha.
Ministerstvo školství zveřejňuje open data té první sady výše - v jednom obrovském XML souboru, popř. po krajích - ale pro každou školu jsou všechna data zaklíněna do sebe v jedné XML struktuře. (Jinak to taky můžeme mít z vyhledávacího formuláře v omezeném množství a bez možnosti exportu.)
Pak taky existuje server Štístko, kde za několika formuláři a čudlíky najdete polopoužitelný excel s kontaktními adresami a emaily škol.
Pokud cokoli z toho chcete používat opakovaně, neřkuli strojově, je to dost fuška.
Málo pak tu byl kdo zahálivý, všickni se prací nějakou zanášeli, ale kteréž práce (a tohoť bych se byl nikdý nenadál) nic nebyly než aneb hřičky dětinské aneb leda pachtování.
Proto je tu {všezvěd}
: balík v jazyce R, díky němuž se automatizovaně dostanete v vyčištěným datům podle vaší potřeby, bez nutnosti něco naklikávat, stahovat a konvertovat.
Je v úplně první minimálně funkční verzi.
Co umí:
Z brány když vycházíme, vidím, že každému tomu ponabroušenému cejch dávají, po němž by, že mezi učence přináleží, poznán býti mohl, kalamář za pás, za ucho péro a do ruky prázdnou knihu k shledávání umění; i dostal sem toho také.
- načíst kteroukoli ze čtyř vrstev rejstříku škol (škola, školské zařízení, umístění, obory) z opendatového XML
- načíst kontaktní údaje pro kteroukoli z těchto vrstev ze serveru Štístko, v případě potřeby i s filtrem (tj. například stáhnout ze serveru jen základní školy v okresu Semily)
Co to znamená:
„Do jakéž sme toto pak apatéky vešli?“ „Do apatéky,“ řekl tlumočník, „kdež se lékové proti neduhům mysli chovají, a ta vlastním jménem bibliotéka slove.
- v datech jsou adresy (včetně kódu adresních bodů podle ČÚZK), kapacity škol, ředitelé, statutáři, zřizovatelé a různé kategorizace
- každá škola a školské zařízení mají své ID (REDIZO, resp. IZO)
- je to primárně registr, tj. nejsou tam žádné “živé” údaje o školách (jak jsou dobré nebo špatné, co se v nich děje atd.)
Co (zatím) neumí:
I šli sme a uvedli mne na nějaký plac, uprostřed něhož uzřím veliký rozložitý strom, na němž všelijaké lístí a všelijaké ovoce (v škořepinách všecko) rostlo, pravili mu Natura.
- rejstřík školských právnických osob
- stáhnout XML jen pro jednoltivé kraje (tyto exporty se v katalogu objevily až nedávno)
- vyzobávat data o statutárech z opendatového XML, byť tam jsou i s adresami trvalého pobytu…
- žádná “živá” data o školách, která vytváří statistický aparát resortu školství (ročenky, kvanta různých exportů z výkazů od škol a ad hoc sběrů dat)
A kdo to je: Protože data o školách jsou labyrint a ve školách se učí celý ráj světa, průvodce po datech se jmenuje Všezvěd, stejně jako průvodce Poutníka v Komenského Labyrintu světa a ráji srdce.
Možná se měl spíš jmenovat Mámil, jako Poutníkův průvodce? Nebo je to vlastně celé lusthauz?
Illustritati Tuae devotus cliens.