Publikace datové sady NRPZS

Podle nařízení vlády č. 425/2016 Sb. je Ústav zdravotnických informací a statistiky ČR (ÚZIS ČR) jakožto správce Národního registru poskytovatelů zdravotních služeb (NRPZS) povinen poskytovat údaje obsažené v registru v podobě otevřených dat. Dlouhodobou snahou ÚZIS ČR je technicky implementovat a následně průběžně plnit Katalog otevřených dat Ministerstva zdravotnictví České republiky. Smysluplnost jednotlivých zveřejňovaných datových sad je však podmíněna povahou dat, která pochází z některého z registrů nebo informačních systémů NZIS. Zásadním cílem zveřejnit pouze takové informace, které budou řádně a v souladu s pravidly pro otevřená data popsána, a která navíc nepovedou k možné desinterpretaci publikovaných výstupů.


Registr NRPZS poskytuje kompletní přehled o všech poskytovatelích zdravotních služeb v České republice, kde uživatel najde údaje o profilu a rozsahu péče, kontaktní údaje a další podrobnější informace. Veřejně dostupnou nadstavbou nad tímto registrem je portál NRPZS, který nabízí různé druhy vyhledávání z pohledu veřejnosti, správního orgánu a poskytovatele zdravotních služeb. Data, která stojí v pozadí portálu a jsou uložena v registru NRPZS, je žádoucí mít k dispozici také ve strojově čitelné podobě. Proto je tato datová sada připravena ve formátu otevřených dat a dostupná ve zmíněném katalogu.

V tomto článku je stručně popsán technický proces transformace surových dat do otevřené podoby a následná publikace do národního katalogu otevřených dat.

OpenAPI: Datový zdroj ve strojově čitelné podobě

Rozhraní pro získání dat z registru podléhá standardu OAS 2.0 (OpenAPI Specification verze 2). Nabízí aktuálně platné číselníky, výpis oddělení a ordinační doby pro vybrané zdravotnické zařízení, nebo kompletní seznam všech poskytovatelů. 

Pusťme se do otevírání: Vytvoření distribuce

Jednou z možností publikace tabulkových dat v otevřené podobě je formát CSV on the Web (CSVW). V zásadě se jedná o CSV (comma separated values) soubor, který svým obsahem odpovídá schéma ve formátu JSON-LD. Schéma obsahuje metadata datové sady a popis jednotlivých sloupců, včetně definice datového typu a formátu pro každý sloupec.

Validace

V současné době neexistuje mnoho nástrojů pro validaci CSVW. Jedna z možností, jak ověřit správnost dat, je program rdf-tabular (https://github.com/ruby-rdf/rdf-tabular). Je nutná jeho lokální instalace jako tzv. Ruby gem (https://rubygems.org/gems/rdf-tabular). Alternativou je aplikace csvw-validator (https://csvw.opendata.cz/), která umožňuje validaci pomocí API. Není tedy nutná lokální instalace, stačí aplikaci nasměrovat na soubor distribuce nebo na její schéma.

Aktualizace lokálního katalogu otevřených dat

ÚZIS ČR ve spolupráci s Ministerstvem zdravotnictví ČR provozuje lokální katalog. Jedná se o široce používanou implementaci open-source instance katalogu CKAN. Datová sada NRPZS je pravidelně aktualizována na začátku každého měsíce. Pro interakci s katalogem je kromě webové aplikace k dispozici také tzv. CKAN API, které umožňuje strojovou aktualizaci záznamů katalogu a také generuje metadata pro národní katalog OD.

Dáváme vše dohromady

Než každý měsíc opakovat stále stejné úkony, je na místě použít automatizační nástroj. V našem případě je celý proces publikace dat implementován v rámci systému Jenkins. Pomocí sady skriptů v jazyce Groovy lze provést jednotlivé kroky popsány výše. V přehledném UI je pak možné zobrazit průběh tzv. pipeline.

Obrázek 1: Pipeline v prostředí Jenkins Blue Ocean (Publikace dat NRPZS do lokálního katalogu CKAN)

11. 7. 2019