7 mitów dotyczących analizy danych w chmurze
Czy uczenie maszynowe rozwiązuje wszystkie problemy klienta? Czy sztuczna inteligencja jest przyszłością każdej firmy? Poniżej błędne wyobrażenia dotyczące analizy danych w chmurze.
Mit 1: Dane można z łatwością przesłać do chmury
Jak jest naprawdę?
W rzeczywistości przeniesienie danych do chmury wcale nie jest takie proste. Jedną z przeszkód jest fakt, że wiele osób nadal sceptycznie podchodzi do rozwiązań chmurowych i nie chce umieszczać swoich danych „gdzieś w internecie”. Wydaje się, że najistotniejszym czynnikiem, który wpływa na poziom zaufania do chmury, jest lokalizacja centrum danych. Wiele kontrowersji budzi również przesyłanie danych osobowych. Instytucje finansowe nie palą się, by przechowywać wrażliwe dane w chmurze. Kolejnym problemem jest rozproszenie źródeł danych. Dane zapisane są w różnych formatach i pochodzą od różnych właścicieli, co dodatkowo komplikuje proces migracji.
Rozwiązanie
Nie ma sensu myśleć o zaawansowanej analizie danych, dopóki nie uporamy się z przesłaniem ich do chmury. Jak się za to zabrać? Po pierwsze należy w odpowiedni sposób traktować informacje umożliwiające identyfikację osób (tzw. PII – Personally Identifiable Information). Jeśli dana organizacja zgłasza obawy dotyczące danych osobowych, można rozważyć migrację wyłącznie numerów identyfikacyjnych i robienie obliczeń na ich podstawie. Dopiero, gdy potrzebne są bardziej szczegółowe informacje, np. nazwisko lub adres, przenosimy numery identyfikacyjne z chmury na platformę lokalną i tłumaczymy.
Migrację danych należy zaplanować z dużym wyprzedzeniem. Nawet zaczynając od projektu POC (ang. Proof of Concept), polegającego na weryfikacji koncepcji, trzeba pamiętać, że regularny transfer danych do chmury, umożliwiający przekazanie rozwiązania do produkcji, wymaga wielogodzinnego planowania i podpisania wielu umów. Niezwykle istotne jest, aby dostawcy rozwiązań chmurowych, tacy jak Microsoft, dobrze komunikowali się ze swoimi klientami. W szczególności powinno zależeć im na wyjaśnieniu możliwości i mechanizmów działania chmury w zakresie bezpieczeństwa.
Mit 2: Dane są natychmiast integrowane i gotowe do analizy
Jak jest naprawdę?
Niestety nie jest tak łatwo. Wspomniałem już o trudnościach wynikających z różnic między formatami danych. Wszystkie dane – arkusze Excel, bazy danych SQL, pliki PDF, pliki JPG i inne rodzaje niekompletnych, niespójnych danych pochodzących z nie zawsze wiarygodnych źródeł – muszą być „oczyszczone” i zintegrowane zanim można przystąpić do ich analizy. Kolejną przeszkodą jest złożony proces ładowania. Źródła danych potrzebują różnych narzędzi, by okresowo ładować informacje do chmury. Ponadto ilość danych bywa tak duża, że nawet posługując się rozwiązaniami chmurowymi, do przeprowadzenia migracji trzeba skonfigurować odpowiednie ustawienia i mechanizmy optymalizacji.
Rozwiązanie
Powszechnie wiadomo, że przed przystąpieniem do zaawansowanej analizy danych – a taką jest uczenie maszynowe – należy stworzyć hurtownię danych. Zaczynając nowy projekt, zazwyczaj wdrażamy nowoczesną hurtownię danych klasy enterprise. Na tym etapie gromadzi się wszystkie źródła danych i tworzy odpowiednie procesy ładowania. Dopiero po ustrukturyzowaniu i uporządkowaniu źródeł danych uczenie maszynowe przyniesie wiarygodne rezultaty.
Pracując z danymi, kierujemy się zasadami i wzorcami będącymi częścią Predica Data Domain Framework (PDDF). Jest to kompletne repozytorium bazujące na naszym doświadczeniu oraz najlepszych praktykach DataOps. Na PDDF składają się m.in. powszechnie używane nazewnictwo, podejścia oraz procesy związane z tworzeniem usług i środowisk. W Predica stworzyliśmy nawet własne procedury testowe, aby monitorować funkcjonowanie hurtowni danych. Tylko to daje nam pewność, że dane są prawidłowe i mogą zostać z powodzeniem wykorzystane w uczeniu maszynowym.
Mit 3: Modele uczenia maszynowego wdraża się szybko, a decyzje na ich podstawie można podejmować od razu
Jak jest naprawdę?
Nic z tych rzeczy. Faktem jest, że uczenie maszynowe staje się coraz prostsze. Nowoczesne usługi, takie jak Azure ML, pozwalają tworzyć wiele modeli uczenia maszynowego jednym kliknięciem, ale uwaga – nie wiedząc, co dzieje się „pod maską”, nietrudno pomylić się w interpretacji wyników i podjąć złe decyzje. Co więcej, czasami narzędzia typu Azure ML można stosować tylko w określonych przypadkach. Nie zawsze można więc polegać na całkowitej automatyzacji usług.
Rozwiązanie
Po pierwsze: jeśli rzeczywiście zależy nam na podejmowaniu decyzji biznesowych w oparciu o wyniki dostarczone przez modele uczenia maszynowego, musimy mieć możliwość monitorowania skuteczności tych modeli. Dobrym przykładem rozwiązania, które pomaga zrozumieć tajniki modelu uczenia maszynowego, jest pulpit Power BI. Nie można też polegać na pojedynczym wskaźniku. Trzeba wziąć pod uwagę różne parametry, zależnie od okoliczności i specyfiki naszego biznesu. Na koniec warto również wyznaczyć benchmark, czyli wskaźnik referencyjny, który pozwoli nam ocenić wartość modelu uczenia maszynowego.
Mit 4: Modele są natychmiast wdrażane i wykorzystywane w produkcji
Jak jest naprawdę?
Prawda jest taka, że spora część modeli nie wychodzi nawet poza etap weryfikacji (POC). Wynika to z faktu, że wdrożenie modelu do produkcji jest wyjątkowo czasochłonnym procesem. Przed rozpoczęciem projektu musi wydarzyć się wiele rzeczy: podpisywanie umów, ustalanie praw własności, podejmowanie decyzji. Niektórym firmom po prostu brakuje do tego cierpliwości. Następny problem polega na tym, że modele wprowadzone do produkcji rzadko kiedy są monitorowane. Tymczasem warunki mogą się zmienić, powodując, że skuteczność modeli spadnie. Przykładowo wybuch pandemii miał olbrzymi wpływ na modele uczenia maszynowego i sprawił, że przewidywanie czegokolwiek stało się niemożliwe. To oczywiście dość ekstremalny przykład, ale nie brakuje też mniejszych. Jeśli modele używane w produkcji nie są monitorowane, będą zwracać fałszywe wyniki. Czasami zaś w ogóle nie docierają do etapu produkcyjnego, bo osoby decyzyjne się zniechęcają. Na koniec warto podkreślić, że modele tworzy się z myślą o wprowadzaniu uzyskanych wyników do innych systemów – a to zdarza się rzadko. Modele funkcjonują niejako „z boku”, wyjęte poza obszar pozostałych działań firmy. Ich stosowanie nie jest też zautomatyzowane, np. tak, aby wspomagały kampanię marketingową. Mówiąc krótko, model gubi się gdzieś po drodze.
Rozwiązanie
Już na samym początku projektu POC trzeba zaplanować produkcję i wyjaśnić wszystkim osobom decyzyjnym, że zatrzymanie się na etapie weryfikacji koncepcji to wyrzucanie pieniędzy w błoto. Inwestujemy w rozwiązanie, które przyniesie korzyści dopiero w dłuższej perspektywie czasowej. Chcę też zwrócić szczególną uwagę na mechanizm przeglądania wyników. Powtórzmy raz jeszcze: po wprowadzeniu modeli do produkcji trzeba mieć możliwość ich łatwego monitorowania, tak aby kierownictwo wiedziało, jakie przynoszą korzyści. Odpowiedzią jest MLOps (MachineLearningOps), czyli zestaw praktyk obejmujących budowanie i monitorowanie modeli oraz zarządzanie nimi.
Mit 5: Uczenie maszynowe to praktycznie forma magii zdolna rozwiązać każdy problem
Jak jest naprawdę?
W niektórych przypadkach uczenie maszynowe i zaawansowana analiza danych wcale nie są konieczne, a do rozwiązania problemu wystarczą inne, dużo prostsze sposoby. Wprowadzanie uczenia maszynowego tylko dlatego, że taki panuje obecnie trend, w praktyce nie przyniesie żadnych korzyści. Wdrożenie może również zawieść, jeśli za szybko podniesiemy sobie poprzeczkę. Nawet jeśli istnieją silne przesłanki, by spróbować uczenia maszynowego, nie powinniśmy zaczynać od zbyt skomplikowanych metod.
Na koniec warto dodać, że niektóre firmy po prostu nie są gotowe na wprowadzenie uczenia maszynowego, ponieważ brakuje im wewnętrznych kompetencji. Nawet jeśli zaczną od współpracy z zewnętrznym dostawcą, w przyszłości trudno im będzie rozwijać modele i dostosowywać je do zmieniających się warunków.
Rozwiązanie
Dobrym punktem wyjścia jest przyjęcie odpowiedniego podejścia do danych, czego przykładem są wspomniane już wcześniej praktyki DataOps i MLOps. Jeśli chcemy analizować dane, zamiast od uczenia maszynowego zacznijmy od wizualizacji i Power BI. Uczenie maszynowe (a mówiąc ogólniej, danologia) obejmuje bowiem procesy, nad przebiegiem których musi czuwać wiele osób. Przedsiębiorstwo potrzebuje więc pracowników, którzy mają różne kompetencje, dzięki którym są w stanie zająć się wszystkimi zaawansowanymi zadaniami. Koniec końców, aby móc korzystać z uczenia maszynowego, należy zainwestować w umiejętności, a także zadbać o to, by były one stopniowo rozwijane.
Gorąco zachęcam, żeby zacząć od prostszych metod. Oczywiście uczenie maszynowe może być bardzo przydatne, ale czasami warto odłożyć je na później.
Mit 6: Organizacje chcą korzystać z modeli uczenia maszynowego i chętnie je wdrażają
Jak jest naprawdę?
Uczenie maszynowe jest mocno reklamowane, ale entuzjazm wielu firm opada w momencie, kiedy przychodzi pierwszy rachunek. Powiedzmy szczerze: żeby czerpać korzyści z zaawansowanej analizy danych, trzeba najpierw zainwestować. Czasami przychodzi długo poczekać, aż uczenie maszynowe zacznie przynosić jakieś efekty. Znam mnóstwo organizacji, które próbowały wielu modeli uczenia maszynowego, ale ostatecznie wycofały się z powodu braku zadowalających rezultatów. A gdyby poczekały dłużej albo zainwestowały nieco więcej, uczenie maszynowe zaczęłoby owocować.
Wprowadzając uczenie maszynowe do firmy trzeba więc zadbać o to, by jego wyniki były dobrze wyjaśnione. Zazwyczaj tak się nie dzieje. Pojedyncze numery wypluwane z czarnej skrzynki nic nam przecież nie mówią.
Ostatnia, ale równie ważna rzecz: musimy uzbroić się w cierpliwość i dać naszemu modelowi trochę czasu. W niektórych przypadkach efekty nie będą widoczne od razu; tak po prostu jest. Właśnie dlatego uczenie maszynowe nie jest odpowiedzią na wszystkie bolączki.
Rozwiązanie
Warto zacząć od obszarów, w których uczenie maszynowe najszybciej przyniesie widoczne rezultaty. Ostatnio realizowaliśmy projekt dla pewnego działu finansów. Zastosowaliśmy uczenie maszynowe nie po to, aby stworzyć zaawansowany mechanizm dostarczający informacje o zachowaniach klientów, ale po to, aby wykrywać anomalie w płatnościach. Po czterech tygodniach udało nam się wychwycić wiele duplikatów, dzięki czemu nasz klient zaoszczędził sporo pieniędzy. Namacalne oszczędności okazały się przekonującym argumentem dla osób decyzyjnych i obecnie kontynuujemy naszą przygodę z uczeniem maszynowym w tej firmie. Promując uczenie maszynowe, warto podeprzeć się liczbami zaczerpniętymi z pulpitu Power BI, pulpitu Tableau albo dowolnego narzędzia do wizualizacji (sprawdzi się nawet Excel). Chodzi o to, aby pomóc osobom decyzyjnym zrozumieć sposób działania uczenia maszynowego.
Nie zapominajmy też o planowaniu długoterminowym. Jeśli nie chcemy zatrzymać się na etapie POC, stworzenie samego modelu nie wystarczy. Potrzebny będzie harmonogram działań uwzględniający m.in. ścieżkę dalszego rozwoju, potencjalne korzyści dla różnych działów firmy, możliwości doskonalenia modelu i sposoby śledzenia wyników.
Mit 7: Projekt analizy danych da się od razu zaplanować od A do Z
Jak jest naprawdę?
Projekt uczenia maszynowego może zrobić zwrot w nieoczekiwanym kierunku. Czasem okazuje się, że zastosowana metoda nie nadaje się do rozwiązania danego problemu. Może się też zdarzyć, że model nie działa z powodu zbyt niskiej jakości danych. Jeśli badane zjawisko jest rzadkie, znalezienie odpowiedniego modelu może trochę potrwać.
Raz stworzony model uczenia maszynowego należy ciągle dostosowywać i monitorować. Do tego zaś potrzeba odpowiedniego zespołu, który będzie prowadził obserwacje. Właśnie dlatego nie zawsze da się przewidzieć, jak rozwiną się tego rodzaju projekty.
Rozwiązanie
Nie należy zawsze polegać na gotowych rozwiązaniach. Zamiast tego starajmy się dopasowywać modele uczenia maszynowego do konkretnych problemów. Oprócz tego warto wprowadzić stałe monitorowanie integracji.
Takie dynamiczne podejście pozwala szybko uzyskać wyniki modelowania. Dzięki temu możemy ciągle doskonalić nasz model i osiągnąć satysfakcjonujące efekty. Jeśli w tym celu należałoby zmienić kierunek projektu, to tak właśnie trzeba zrobić. To oczywiście truizm, niemniej na tyle ważny, że warto się nim posłużyć: otóż w każdej dziedzinie – również w analizie danych – zdarzają się niepowodzenia. Trzeba wówczas podeprzeć się zdobytym doświadczeniem i obrać inny kierunek z przekonaniem, że następnym razem pójdzie lepiej.
Jak to działa w naszym przypadku? Korzystamy ze wspomnianego już wcześniej repozytorium Predica Data Domain Framework (patrz: Mit nr 2 „Dane są natychmiast integrowane i gotowe do analizy”). W naszej „Wikipedii” znajduje się sekcja dotycząca m.in. projektów baz danych, projektów Databricks i projektów uczenia maszynowego. W razie wątpliwości możemy sprawdzić, co robić – np. jak prowadzić dany projekt albo, jeśli to potrzebne, zmienić jego kierunek.
Autor pełni funkcję Digital Advisor Lead w firmie Predica.
Podobne artykuły
Program partnerski OVHcloud: droga do sukcesu w ekosystemie chmury
Wraz z ewolucją krajobrazu usług chmurowych zmieniają się także wyzwania i możliwości, które czekają na OVHcloud oraz jego partnerów w 2024 roku.
Alternatywa dla chmury publicznej
Część analityków zapowiadała, że 2023 ma być rokiem repatriacji z chmury publicznej. Tak się nie stało, co nie zmienia faktu, iż wiele firm przechowuje i przetwarza swoje dane w środowisku lokalnym.
Rzeczywistość mieszana łączy świat wirtualny z rozszerzonym
Warszawska firma Predica stworzyła przełomowe rozwiązanie ułatwiające zarządzanie przedsiębiorstwem. Bazuje ono na tzw. rzeczywistości mieszanej, w ramach której wykorzystywane są gogle HoloLens.