Pilotní program vzdělávání analytiků 2022
⨉ naučit se do hloubky statistiku
⨉ naučit se R, Python a git
⨉ pouštět se do nestandardních typů dat
Bezpečné prostředí
Všichni se učíme (pilot!)
Je OK nevědět
Důvěra v analýzy díky
Práce v kódu, ale zároveň integrace analýzy a interpretace
Datové produkty: nejen PDF reporty (web, interaktivita)
Agilní přístup k datové analýze
Rychle reagovat
Moct navázat na už udělané
Dobře komunikovat: v průběhu i výsledek
Sám/sama datům dobře rozumět
Získat si důvěru: proces, kontrola kvality, transparentnost
Otevřená data
ČSÚ <=> otevřená data
ČSÚ <=> data a metadata
ČSÚ <=> Eurostat (někdy lepší)
Data o životním prostředí
Geodata a číselníky
“Ostatní data”
Vaše tipy?
=> Co to je za data? Kde se vzala? Kde je dokumentace?
zdroj: https://r4ds.hadley.nz/whole-game.html
Není to lineární proces
Spolupracujete se svým budoucím já.
Vaše budoucí já vám poděkuje
(kolega*yně taky)
Žádná analýza
není jednorázovka
Postup + dokumentace =
zkontrolovatelnost
opakovatelnost
automatizovatelnost
📋 Dokumentovat data, postup, soubory
📥 Oddělit vstupní data od analýzy
📂 Organizace projektu na disku
(👩💻 Pracovat v kódu ideálně s open source nástroji)
🔌 (Vytvářet kompletní opakovatelné workflow)
🔢 Verzovat analýzu (kód) a pokud možno i výstupy
✅ Využívat strojovou validaci vstupů a výstupů
(📕 Používat nástroje na propojení textu a kódu: Jupyter, Rmarkdown, Quarto)
(💽 Zaznamenat prostředí, kde kód běží)
📂 data
📂 analyza
📂 vystupy
📄 README.docx
Ideálně konzistentní napříč projekty
“Naming things is hard”
❌ hotovo-final1-fin2.1led21.xlsx
✅ report01-vypocty_20220926.xlsx
Data mají různé tvary: dlouhá, široká, něco mezi
Různé tvary pro různé účely
Dostat data do správného tvaru je úkol sám o sobě
Co identifukuje jednu řádku?
Základ:
pivot
- unpivot
databázová normalizace
Cíl: data vhodná pro analýzu
Formáty
Nepřesnosti?
Duplicity?
Chybějící data?
Nesprávné hodnoty?
Extrémní hodnoty?
zdroj: https://www.garrickadenbuie.com/project/tidyexplain/
zdroj: https://www.garrickadenbuie.com/project/tidyexplain/
zdroj: https://www.garrickadenbuie.com/project/tidyexplain/
zdroj: https://www.garrickadenbuie.com/project/tidyexplain/
https://apl.czso.cz/iSMS/
https://www.cuzk.cz/ruian/Poskytovani-udaju-ISUI-RUIAN-VDP/Ciselniky-ISUI.aspx
Exploratorní datová analýza
Poznat data
Najít problémy
Poznat variabilitu
Detekovat pravidelnosti
Koukat na data
Hledat podivnosti
Vizualizovat
Sčítat a porovnávat
Zkoumat výseky dat
Sařadit si data
Souhrnné statistiky
Kontingenční tabulka
Histogram
Box plot
Náhled rozdělení v PowerQuery
Heatmapy (podmíněné formátování)
Základní mapy (kraje)
Korelace, regrese, t-testy
SQL a databáze
R nebo Python?
=> automatizace
ObservableJS
Jupyter Notebooks
R Markdown / Quarto
pbouchal@gmail.com
petrbouchal.xyz