Jesteśmy fabryką danych
„Wszystko przetwarzamy we własnym ośrodku obliczeniowym. Mamy odpowiednią infrastrukturę i odpowiednie zasoby, które pozwalają nam obrabiać olbrzymie zbiory danych bez korzystania z jakiejkolwiek pomocy z zewnątrz” – mówi dr inż. Janusz Dygaszewicz, dyrektor Departamentu Systemów Teleinformatycznych, Geostatystyki i Spisów w Głównym Urzędzie Statystycznym (GUS).
dr inż. Janusz Dygaszewicz, dyrektor Departamentu Systemów Teleinformatycznych, Geostatystyki i Spisów w Głównym Urzędzie Statystycznym (GUS)
Kiedy informatyka weszła na dobre do statystyki?
Janusz Dygaszewicz To pytanie można odwrócić: dlaczego maszyny obliczeniowe, a potem metody przetwarzania cyfrowego rozwijały się tak intensywnie na początku i w połowie poprzedniego wieku, głównie w Europie i Ameryce? Właśnie dlatego, że były odpowiedzią na wymagania administracji i rosnące zapotrzebowanie statystyki publicznej na moc obliczeniową dla różnych badań, w tym spisów ludności i mieszkań i związanej z tym konieczności przetwarzania ogromnej ilości danych na potrzeby zarządzania krajem. Te potrzeby stały się dodatkowym motorem rozwoju technik obliczeniowych. Inaczej mówiąc, pierwsze maszyny liczące były od początku głównie stosowane w statystyce i tak jest do dzisiaj.
Można się też jednak spotkać z poglądem, że statystyka jest bardzo tradycyjna, konserwatywna, skupia się tylko na zestawieniach liczbowych, nie nadąża za rozwojem technicznym…
W rzeczywistości jest dokładnie odwrotnie. Potrzeby państwa związane z dostępem do informacji statystycznych wręcz wymuszają stosowanie najnowocześniejszych technologii. Tak było 100, 50 lat temu, i tak jest dzisiaj. Na przykład w latach osiemdziesiątych zeszłego stulecia wyzwania związane z inwentaryzacją zasobów leśnych Kanady spowodowały powstanie systemu informacji geograficznej GIS. W Polsce w latach powojennych jednym z przodujących ośrodków obliczeniowych był ośrodek GUS-owski. I do dzisiaj tak pozostało. Stosujemy najnowsze osiągnięcia technik obliczeniowych, związane z machine learning i sztuczną inteligencją. Korzystamy ze wszystkiego, co służy do zbierania i przetwarzania danych, chociażby web scrapingu. Korzystamy też z najnowszych technologii potrzebnych do obliczeń i analiz statystycznych oraz do prezentacji ich wyników. Nadążamy za trendami światowymi, na przykład prowadzimy Portal Geostatystyczny, który pozwala na wielowymiarowe analizy przestrzenne danych statystycznych. Wszystko po to, aby sprostać zapotrzebowaniu społeczności lokalnych, samorządów, państwa i Unii Europejskiej na referencyjne dane o zjawiskach społecznych, gospodarczych i środowiskowych. W ten sposób wypełniamy misję statystyki, stając się jednocześnie kluczowym elementem systemu informacyjnego państwa.
Z jakimi wyzwaniami mierzy się dzisiaj GUS, jeśli chodzi o wykorzystanie technik informacyjnych?
Wystarczy powiedzieć, że zbieramy informacje z bardzo wielu różnych źródeł, w tym z rejestrów państwowych. W Polsce jest ponad sześćset unikalnych rejestrów. My wykorzystujemy w różnym stopniu około połowę z nich. Do bezpośrednich, bieżących prac, około stu, zaś na potrzeby ostatnich spisów powszechnych w całości uspójniliśmy i zintegrowaliśmy w jednym miejscu dane z prawie czterdziestu rejestrów publicznych typu PESEL, ZUS, KRUS, finanse, nieruchomości itd. To jest olbrzymia ilość danych, które musimy zebrać, zabezpieczyć, przetworzyć, a następnie wyciągnąć z nich wnioski. Nie da się tego zrobić inaczej niż z zastosowaniem najnowocześniejszych środków przetwarzania danych.
Można powiedzieć, że big data to dla Was codzienność… Jaką ilość danych przetworzyliście na przykład w ramach ostatniego spisu powszechnego?
Wolumen danych dochodził już prawie do poziomu zetabajtów. Spisy robimy ekstra raz na dziesięć lat, a corocznie olbrzymie ilości danych i tak stale przetwarzamy na potrzeby naszej działalności statutowej. Można wręcz powiedzieć, że jesteśmy fabryką danych: w ciągu roku realizujemy prawie 300 różnych badań, a na bieżąco korzystamy z 372 źródeł danych, zarówno administracyjnych, jak i pozaadministracyjnych, z których pozyskujemy ponad sześćset różnych zestawów danych, w różnych układach i z różną częstotliwością. Zasilają one 145 badań statystycznych w ramach 31 dziedzin statystyki, czyli około połowy tego, co robimy w ciągu roku. Współpracujemy przy tym ze 156 gestorami tych źródeł danych, na poziomie ministerstw i innych podmiotów administracji publicznej, jak również spoza administracji. Ogromnym wyzwaniem jest ochrona tych danych, a więc dbanie o ich bezpieczeństwo.
Jakimi zasobami technicznymi obecnie dysponujecie?
Mamy dwa własne centra przetwarzania danych – w Warszawie i w Radomiu, działające w ramach specjalnie utworzonej jednostki: Centrum Informatyki Statystycznej. Ze względu na wymogi bezpieczeństwa nie korzystamy w ogóle z chmury publicznej – ani u dostawcy rynkowego, ani też z jakiejkolwiek chmury administracji publicznej. Bo jeżeli w chmurze, to znaczy na czyimś komputerze, nad którym nie mamy kontroli. Takie rozwiązanie nie wchodzi w ogóle w grę, jeśli chodzi o jednostkowe dane statystyczne. Wszystko przetwarzamy we własnym ośrodku obliczeniowym. Mamy odpowiednią infrastrukturę i odpowiednie zasoby obliczeniowe, które pozwalają nam obrabiać te olbrzymie zbiory danych bez skorzystania z jakiejkolwiek pomocy z zewnątrz. Nie możemy ryzykować jakiejkolwiek możliwości wypływu tych danych. Najbardziej bezpiecznym środkiem ochrony jest maksymalne odseparowanie najcenniejszych zasobów tak daleko, jak to jest tylko możliwe i jeśli to konieczne i niezbędne, kontrolowane udostępnianie z zachowaniem ścisłych zasad bezpieczeństwa. Wszystkie dane statystyczne są przetwarzane wyłącznie u nas i są chronione na poziomie wysokim.
Te rygorystyczne wymogi bezpieczeństwa wynikają, jak się domyślam, z obowiązku dochowania tajemnicy statystycznej….
Statystyka działa jak czarna dziura – dane wchodzą do przetworzenia jako jednostkowe, ale nigdy jako takie już nie wychodzą. Ustawowo jesteśmy zobowiązani do zachowania tajemnicy statystycznej, czyli nie możemy ujawniać żadnych jednostkowych, identyfikowalnych informacji na temat osób, firm, instytucji, miejsc. Możemy jedynie udostępniać informacje zagregowane w odniesieniu do minimum trzech przypadków jednostkowych. Jeżeli bowiem chcielibyśmy powiedzieć coś na temat działalności, na przykład, zakładów krawieckich, a w gminie byłby tylko jeden, to bez problemu każdy mógłby go zidentyfikować. Musimy więc dane łączyć, tworzyć mikroagregaty i agregaty stosując odpowiednie metody statystyczne.
Podobne wywiady i felietony
Silky Coders: skala paliwem dla algorytmów
„Sztuczna inteligencja zdecydowanie zmienia sposób pracy, działając w praktyce jak akcelerator produktywności. Jednak jej prawdziwy wpływ widać dopiero wtedy, gdy zaczyna zmieniać sposób podejmowania decyzji’’ – mówi Krzysztof Radziwon, Director of IT Strategy & Execution w Silky Coders, spółce z grupy LPP, właściciela marek odzieżowych Sinsay, Reserved, Cropp, House i Mohito.
Państwowa sztuczna inteligencja: od laboratoriów do realnych wdrożeń
„Biorąc pod uwagę plany polskiego rządu, aspirujemy do tego, aby w zakresie sztucznej inteligencji Polska weszła do wąskiej grupy 20–25 państw budujących AI na świecie” – mówi dr hab. inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego.
Całe miasto w jednej aplikacji
„Naszym zadaniem nie jest tworzenie rozwiązań tylko dla jednego wydziału, czy jednej jednostki miejskiej. Chcemy, żeby z każdego systemu mogło korzystać możliwie dużo użytkowników, zarówno po stronie administracji, jak i mieszkańców” – mówi Ewelina Włoch, Naczelnik Wydziału Cyfryzacji i Nowych Technologii w Urzędzie Miasta Rybnik.
