Jak na poziomie operacyjnym odbywa się sprawdzanie jakości danych?

To bardzo proste. Zazwyczaj wprowadzane są różnorakie walidacje przy wprowadzaniu danych do systemów. A dodatkowo przygotowujemy odpowiednie reguły sprawdzające, które są implementowane do oprogramowania działającego w sposób automatyczny. Konkretny kształt tych reguł może być różny w zależności od stosowanego software’u, na przykład można użyć zapytań SQL-owych. Załóżmy, że sprawdzamy dane w bazie klientów detalicznych. Zestawiamy zarejestrowany PESEL i płeć klienta. Wiadomo, że w numerze PESEL jest zaprogramowana płeć – jeżeli obie zapisane w bazie wartości się zgadzają, to znaczy, że dana jest odpowiedniej jakości. Baza „odpytywana” jest na okoliczność ustalonego kryterium cyklicznie, zazwyczaj raz na miesiąc. Częstotliwość sprawdzeń jest zazwyczaj wynikiem kompromisu między potrzebami biznesowymi a nadmiernym obciążeniem infrastruktury teleinformatycznej.

 A co się dzieje, gdy zostaną wykryte nieprawidłowości w danych?

Informacja na ten temat jest przekazywana do Rady ds. Data Governance. Rolą tego ciała jest ustalenie przyczyn zauważonych odstępstw od normy i zainicjowanie działań naprawczych. W praktyce zazwyczaj sprawa trafia do właściciela danych z prośbą o wyjaśnienie powodów zaistniałych błędów bądź uruchomienie procedur przywrócenia ustalonego poziomu jakości danych. W konkretnie określonych przypadkach mogą też być od razu wskazywani opiekunowie danych jako osoby właściwe do doprowadzenia do usunięcia nieprawidłowości. W zależności od wagi, od znaczenia danego rodzaju danych dla działalności firmy akcje naprawcze mogą być podejmowane w trybie natychmiastowym np. w przypadku błędów uniemożliwiających obsługę klienta lub dopiero po przekroczeniu ustalonego poziomu błędu. Przykładem takiej sytuacji może być posiadanie w bazie klientów o nieważnych dowodach osobistych czy braku adresu e-mail. Przy pojedynczych przypadkach jest to akceptowalne, ale w dużej skali takie marnej jakości dane mogą wpłynąć na rezultaty biznesowe. Dlatego należy podjąć działania poprawiające biznesową jakość danych chociażby poprzez akcję promującą zgody marketingowe i przekazywanie adresów e-mail.

Czy są jakieś specjalne narzędzia informatyczne, które pomagają zarządzać danymi i są szczególnie istotne z punktu widzenia Chief Data Officera?

Tak, jest grupa takich narzędzi, korzystamy z nich również w Polsce i dobrze się w naszej działalności sprawdzają. Te systemy dużo potrafią, ale też ich wdrożenie jest zazwyczaj czasochłonne i skomplikowane. Każda organizacja powinno sprawdzić ich funkcjonalność pod kątem własnych oczekiwań i uwarunkowań. Ja widzę największą ich wartość w organizacji danych. Coraz częściej są one wyposażane w rozwiązania bazujące na sztucznej inteligencji, lub przynajmniej działające w sposób zautomatyzowany. W mniejszych organizacjach, ewentualnie w dużych, ale do potrzeb o mniejszej skali, można korzystać z mniej zaawansowanych, ale równie skutecznych narzędzi dostępnych w chmurze.  

 Często mówi się dzisiaj, że najlepsze perspektywy biznesowe otwierają się przed firmami, które są „sterowane” danymi – data driven companies. Co to w praktyce oznacza?

To bardzo modne dzisiaj hasło. Na poziomie buzzwordu jest rzeczywiście bardzo atrakcyjne. Zastanówmy się jednak, jakie powinny być faktycznie konsekwencje wprowadzenia go w życie. Co tak naprawdę znaczy data driven company? Gdyby trzymać się ściśle tego określenia, to by oznaczało, że jeśli z analizy danych przy określonych kryteriach wyjdzie, że nasze sklepy nie powinny być otwarte w porze obiadowej, bo wtedy są nierentowne, to wbrew opinii wszelkich menedżerów i pracowników taka zmiana powinna zostać wprowadzona. To jest prawdziwe data driven company, kiedy decyzje biznesowe podejmowane są z automatu na podstawie posiadanych danych. Stąd ta metoda jest stosowana raczej do detalicznych decyzji jak np. uzupełnienie stanu pojedynczego produktu w sklepie.

 Czy zatem wszyscy, którzy używają tego hasła, są dzisiaj rzeczywiście gotowi na pełne, konsekwentne wprowadzenie go w życie?

Myślę, że w większości przypadków mamy na razie jeszcze do czynienia z data informed business, czyli że na podstawie danych generujemy możliwie jak najlepsze modele, najlepsze podpowiedzi do podejmowania decyzji. Żeby robić prawdziwe data driven company, trzeba mieć przede wszystkim zaufanie do danych, wiedzieć, że są pewne i naprawdę istotne dla naszego biznesu. Taką pewność można zbudować przez umiejętne zarządzanie danymi. A w procesie tym kluczową rolę odgrywa wspominana już wcześniej klasyfikacja danych, która pozwala nam zachować kontrolę nad naprawdę wartościowymi z naszego punktu widzenia danymi nie tracąc czasu i zasobów na zajmowanie się danymi mniej istotnymi lub w ogóle nieistotnymi.

Rozmawiał Andrzej Gontarz