Zarządzanie danymi, czyli trudna sztuka wyboru rzeczy ważnych

„Rolą CDO, i to bardzo ważną, jest zapewnienie organizacji tak zwanego Data Culture, czyli zadbanie o zrozumienie i przestrzeganie określonych reguł pracy z danymi na poziomie każdego pracownika firmy, a nie tylko zarządu, finansów czy działu IT” – mówi Tomasz Nitsch, Chief Data Officer w Banku Millennium i prezes zarządu DAMA Poland Chapter, organizacji zrzeszającej profesjonalistów zajmujących się danymi.

Na jakiej podstawie dokonuje się wyboru tych danych?

Zazwyczaj na bazie wiedzy eksperckiej data ownerów i data stewardów z uwzględnieniem strategii biznesowej firmy. Na właścicieli danych wyznaczane są przeważnie osoby kierujące departamentami odpowiedzialnymi za dany obszar działalności. Natomiast opiekunami danych stają się pracownicy posługujący się daną grupą danych na poziomie operacyjnym. Ważne, by każdy zestaw danych korespondował ze strategicznymi wytycznymi firmy. Jeśli, załóżmy, bank wdraża popularną obecnie w sektorze finansowym hiperpersonalizację, czyli dokładne zrozumienie oczekiwań klienta, to musi mieć możliwość zweryfikowania poprzez bazę danych, na przykład bazę wykonywanych operacji bankowych, potrzeb i możliwości finansowych poszczególnych klientów. Chodzi o to, żeby wiedzieć, jaką pożyczkę można zaproponować klientowi bez zbędnego ryzyka. Jeśli z kolei strategia zakłada ogólnie lepsze odpowiadanie na potrzeby rynku, to musimy wiedzieć, jakie dane do realizacji tego celu będą przede wszystkim potrzebne i skąd je pozyskać. Może się wtedy okazać, że powinniśmy pobierać więcej danych ze źródeł zewnętrznych, na przykład z portali społecznościowych, żeby wiedzieć czego klienci potrzebują. Tutaj coraz bardziej przydatne okazują się być rozwiązania bazujące na sztucznej inteligencji, umożliwiające chociażby szybką analizę tzw. sentymentu, czyli jaki wydźwięk emocjonalny ma dana wypowiedź.

Czy coraz powszechniejsze stosowanie narzędzi bazujących na sztucznej inteligencji przynosi jakieś nowe, specjalne wyzwania dla osób zajmujących się zarządzaniem danymi w firmach?

Przede wszystkim musimy zadbać o dobre etykietowanie danych, ich labelizację, jak mówimy z angielska. To jest podstawowe zadanie w zarządzaniu danymi, szczególnie wtedy, gdy korzystamy ze sztucznej inteligencji. Do każdej danej – a takimi danymi mogą być również dane nieustrukturyzowane, takie jak obrazy czy pliki audio – przypisujemy określone cechy. Taką cechą może być wskazanie stopnia istotności danego atrybutu, jak również określenie jego rodzaju, na przykład czy zawiera dane osobowe, jaki jest aktualnie poziom jej aktualności itp. Im lepiej zrobione jest etykietowanie, tym dokładniejsze rezultaty daje bazujący na niej model. Oczywiście im więcej przypisanych cech, tym lepsze rezultaty można osiągnąć. Nie można jednak skupić się tylko na samym etykietowaniu danych, bo to można by robić w nieskończoność. Zawsze trzeba wyważyć, ile i jakie cechy potrzebujemy określić, żeby procesy mogły sprawnie działać.

Mówi się, że przy korzystaniu ze sztucznej inteligencji ważne jest zapewnienie jak najlepszej jakości danych, które stanowią chociażby podstawę trenowania modeli uczenia maszynowego. Jak w bieżącej praktyce działalności biznesowej zapewnić realizację tego postulatu?

To prawda, zasada GIGO – śmieci na wejściu, śmieci na wyjściu – nie straciła nic ze swej istotności. Konieczne jest jednak wyraźne rozróżnienie. Czym innym jest etykietowanie danych, a czym innym data quality, czyli jakość danych. Etykietowanie to opis danych – jest ono wbrew pozorom ważniejsze dla procesów bazujących na sztucznej inteligencji niż jakość danych. Bo musimy w pierwszym rzędzie wiedzieć, jak istotnych i na ile pewnych dla określonej sytuacji danych używamy.

Czyli mówimy tu bardziej o metadanych, a więc danych opisujących dane…

Tak, metadane są bardzo ważne. Załóżmy, że chcemy zrobić analizę, która nam wskaże, komu warto wysłać specjalną ofertę. Przygotowaliśmy na tę potrzebę bazę składającą się w połowie z danych pozyskanych od zewnętrznego dostawcy zawierającą szerokie spektrum informacji o potencjalnym partnerze, a druga połowa pochodzi z naszej bazy klientów, więc ogranicza się do historii wzajemnej współpracy.

Mając tak pokategoryzowane zbiory jesteśmy w stanie przeprowadzić bardziej wiarygodną analizę. Korzystając z odpowiednich algorytmów można na przykład ocenić, czy w danej kwerendzie bardziej powinniśmy polegać na pełnych danych, ale z niepewnego źródła, czy też odwrotnie – na niepełnych danych, ale z pewnego źródła. Ostateczna decyzja odnośnie do zasad kategoryzacji danych zależy w dużej mierze od strategii firmy – czy bardziej zależy jej na wchodzeniu na nowe rynki, czy na eksplorowaniu obecnych klientów. Strategia zaś przekłada się na operacyjne zarządzanie danymi – określenie, jakich danych potrzebujemy, albo jakich możemy użyć, żeby móc podejmować właściwe decyzje biznesowe.

Gdzie tu jest miejsce na zarządzanie jakością danych?

Jakość danych jest w dużej mierze pochodną klasyfikowania danych. Ustalamy, że tych 10 danych, na przykład w odniesieniu do produktu, ma dla nas kluczowe znaczenie, kolejnych 10 już mniejsze, a tych 10 ostatnich jest najmniej ważnych. Przykładowo: w bazie dowodów osobistych znacznie ważniejszą informacją jest termin ważności niż organ wydający dokument. Przyjmujemy, że przynajmniej każdy najważniejszy atrybut musi mieć miernik jakości danych, który pomoże nam określić, czy posiadane przez nas dane są rzeczywiście dobre. Dla najmniej ważnych atrybutów określa się mierniki jakości w zasadzie tylko w sytuacji wyraźnie umotywowanej potrzeby. Zawsze trzeba brać pod uwagę relację kosztów i nakładów do oczekiwanych oraz faktycznie otrzymywanych rezultatów.