Wydajna archiwizacja informacji tylko w warstwach

Szybko rosnąca ilość przetwarzanych informacji oraz konieczność spełnienia wymogów prawa to także wyzwanie związane z infrastrukturą przechowywania danych. Producenci oferują wiele ciekawych rozwiązań, które są w stanie zaspokoić nawet najbardziej nietypowe potrzeby właścicieli firm i ich pracowników.

Przyrost ilości danych nie zawsze musi wiązać się z koniecznością dokupowania kolejnych dysków, półek dyskowych bądź całych macierzy. W wielu firmach taka sytuacja jest wręcz nie do przyjęcia w kontekście malejących budżetów, ograniczonego miejsca w serwerowni lub niewielkiego przydziału mocy na potrzeby zainstalowanych w niej urządzeń. Często należy poszukać rozwiązania, które pomoże uzyskać potrzebną przestrzeń i wydajność, ale jak najmniejszym kosztem.

– Polskie firmy, zarówno w sektorze prywatnym, jak i publicznym, coraz częściej szukają rozwiązań do długoterminowej archiwizacji danych – mówi Ryszard Regucki, dyrektor kanału sprzedaży w firmie CommVault. – Wynika to zarówno z potrzeby bardziej efektywnego przechowywania rosnącej liczby informacji oraz z uregulowań korporacyjnoprawnych wymuszających ich dłuższe składowanie. Taniejąca przestrzeń dyskowa jest elementem ułatwiającym tworzenie cyfrowych archiwów zarządzanych przez inteligentne rozwiązania gwarantujące bezpieczne i długoterminowe przechowywanie danych.

Najszybciej dostępne dane – tylko w sieci

Większość administratorów w działach IT rozumie korzyści płynące z konsolidacji zasobów pamięci masowych i udostępnienia ich przez lokalną (a czasem też rozległą) sieć z centralnego źródła. W ten sposób łatwiej zarządzać udostępnianą użytkownikom przestrzenią oraz zapewnić bezpieczeństwo danych, budując strukturę RAID w macierzy dyskowej bądź replikując dane na inne urządzenie.

Jednak przechowywane informacje mają różną wartość biznesową, która najczęściej spada wraz z upływem czasu. Jedną z podstawowych kwestii do rozważenia jest próba oceny tego, jak owa wartość zmienia się wraz z czasem (dla każdego rodzaju przetwarzanych danych taką analizę trzeba przeprowadzić osobno). Prowadzone przez firmy statystyki pokazują, że ponad 95 proc. danych, od których wytworzenia minęło więcej niż trzy miesiące, już nigdy nie będzie odczytanych. Trzeba je jednak przechowywać, ponieważ nigdy nie wiadomo, które informacje znajdą się w tych pozostałych 5 proc., a także ze względów prawnych.

Jarosław Raćkowicz

Channel Manager, Hitachi Data Systems

Rozwiązania do obiektowego przechowywania danych mają przewagę nad tradycyjnymi, dzięki integracji z setkami aplikacji, takich jak Exchange, SharePoint, systemy klasy ECM i ERM, bazy danych. Taką integrację mogą zapewnić też niezależni producenci oprogramowania, stosując standardowe protokoły wymiany danych. Dzięki temu możliwe jest ustawienie polityk dostępu, retencji oraz usuwanie danych wprost z aplikacji przechowywanych w macierzy. Nie bez znaczenia jest również łatwe i szybkie przeszukiwanie archiwum, np. na potrzeby prowadzonych spraw sądowych.

Informacja w warstwach

Rosnąca ilość przechowywanych i przetwarzanych danych skłania do poszukiwania nowych sposobów zarządzania nimi, aby w większym stopniu wykorzystać posiadane zasoby (najchętniej automatycznie, bez konieczności ingerencji administratorów), odsuwając w czasie konieczność zakupu nowego sprzętu. Jedną z nowych technik, która zyskuje coraz większą popularność, jest deduplikacja, czyli automatyczna analiza treści w celu wykrycia powtarzających się bloków danych i ich eliminacji. Zastosowanie tego rozwiązania jest najbardziej efektywne w macierzach przechowujących kopie bezpieczeństwa (backup) oraz obrazy maszyn wirtualnych. Jednak tam, gdzie powtarzalność danych jest mała (a tak często jest w archiwach), musimy zastanowić się nad innymi metodami.

Firmy mogą korzystać dziś z kilku rodzajów nośników danych – pamięci elektronicznych (pamięć RAM w serwerze oraz pamięć flash na serwerowych kartach rozszerzeń i w dyskach SSD), mechanicznych dysków rotujących o różnych prędkościach (Fibre Channel, Serial Attached SCSI, Serial ATA) oraz taśm. W przypadku wszystkich tych nośników pojemność jest odwrotnie proporcjonalna do kosztu przechowywania danych, ale także prędkości transferu i dostępności danych.

Piotr Nogaś

BRS Practice Manager, EMC

Rozwiązania archiwizacji obiektowej Content Addressable Storage są używane w Polsce od kilkunastu lat. Najczęściej wykorzystuje się je w projektach informatyzacji w urzędach administracji centralnej i lokalnej, w placówkach służby zdrowia oraz tam, gdzie bardzo szybko rośnie ilość przetwarzanych i archiwizowanych danych. Jednak granice zastosowań systemów CAS w Polsce są płynne. Tradycyjne pamięci masowe są wypierane przez takie rozwiązania przede wszystkim w zastosowaniach archiwizacyjnych oraz tam, gdzie wymagane jest szczegółowe zarządzanie prawami dostępu i ich ścisła integracja z aplikacjami.

Rodzaje nośników do przechowywania i archiwizacji danych

• Pamięć operacyjna RAM – do niedawna traktowana jako jeden ze zwykłych komponentów komputera, ze względu na najkrótszy czas dostępu i wciąż spadające ceny okazała się dobrym nośnikiem do przechowywania baz danych (tzw. In-Memory Database).

• Pamięci SSD dostępne jako dyski w serwerze lub macierzy dyskowej oraz karty rozszerzeń PCI w serwerze – są bezkonkurencyjne pod względem wydajności, ale wciąż są drogie i mają niewielką pojemność; wykorzystywane najczęściej w bardzo obciążonych bazach danych.

• Dyski w serwerze lub macierzy dyskowej – najpopularniejszy obecnie nośnik, uniwersalny i wystarczająco wydajny do większości zastosowań; dzięki dostępności różnych rodzajów dysków możliwy jest wybór napędów dostosowanych do potrzeb i budżetu.

• Wirtualne biblioteki taśmowe – macierze dyskowe emulujące bibliotekę taśmową, zapewniają znacznie krótszy czas wykonania backupu i odzyskania danych niż w przypadku tradycyjnej biblioteki; stosowane głównie do backupu i krótkotrwałej archiwizacji.

• Taśmy w napędach lub bibliotekach taśmowych – to najtańsza forma długotrwałego przechowywania danych, możliwość wywiezienia nośnika poza siedzibę firmy stanowi dodatkową ochronę; bardzo długi czas dostępu do danych ogranicza jednak ich zastosowanie głównie do backupu i archiwizacji.

Odpowiedni dobór nośników, będący pochodną analizy posiadanych informacji, daje możliwość zbudowania środowiska pamięci masowych podzielonego na kilka warstw, gdzie najczęściej przetwarzane dane możemy przechowywać na najdroższych, ale i najszybszych nośnikach, a dane mniej ważne (kopie zapasowe, archiwum) na nośnikach wolniejszych i charakteryzujących się mniejszą dostępnością, lecz tańszych i bardziej pojemnych.

Jak połączyć nośniki z danymi?

Budując środowisko pamięci masowych podzielonych na warstwy, należy wziąć pod uwagę przede wszystkim funkcję, którą dana warstwa ma spełniać. Do przetwarzania i przechowywania rekordów z najbardziej obciążonych baz danych zalecane są warstwy zbudowane z pamięci elektronicznych (RAM i SSD) – najszybsze, cały czas taniejące i coraz bardziej niezawodne. Praktycy mówią, że w środowisku IT średniej skali powinny one stanowić ok. 5–10 proc. dostępnej pojemności.

Wybierając nośniki do przechowywania plików oraz danych z mniej obciążonych baz, należy uwzględnić dwa parametry: ich bezpieczeństwo oraz wydajność. Dziś do dyspozycji mamy trzy rodzaje twardych dysków, z których można zbudować oddzielne warstwy: Fibre Channel (główne zastosowanie – bazy danych), Serial Attached SCSI (bazy danych i mocno obciążone serwery plików) oraz Serial ATA (serwery plików i bardzo mało obciążone bazy danych).

Backup zawiera kopię danych produkcyjnych, do których można sięgnąć w przypadku awarii sprzętu w podstawowym środowisku lub gdy dostęp do nich został zakłócony na skutek błędu ludzkiego. Wybór techniki tworzenia backupu bezpośrednio zależy od czasu, w którym chcemy uzyskać ponowny dostęp do nich. Najtańszą formą wykonywania takiej kopii bezpieczeństwa wciąż są taśmy. Dają też dodatkową ochronę, bo nośnik można wywieźć z firmy, ale odtworzenie danych z taśm może trwać godziny, a w niektórych przypadkach nawet dni. Systemy dyskowe są droższe w zakupie oraz eksploatacji (energia elektryczna, klimatyzacja, wymiana uszkodzonych napędów), jednak dzięki nim odzyskanie danych z backupu może być liczone w sekundach czy minutach. Czasem stosowane są też formy pośrednie, np. dyski twarde umieszczane w zewnętrznych kartridżach (system RDX), dzięki czemu utrzymany jest niższy koszt obsługi (nie trzeba kupować macierzy dyskowej ani ponosić dodatkowych nakładów poboru energii elektrycznej) i możliwość wywiezienia z firmy, znacznie szybsze jest też odzyskanie danych.

Do archiwum najczęściej trafiają starsze pliki i poczta elektroniczna. Jako informacje, do których będziemy zaglądali bardzo rzadko (bądź wcale), a ich treść nie będzie ulegała zmianie, można przechowywać je w warstwie zbudowanej z macierzy dyskowej z najtańszymi dyskami (Serial ATA) lub na taśmach. Po przeniesieniu danych do archiwum można wykasować je z podstawowych pamięci masowych działających w trybie produkcyjnym, odzyskując tym samym najdroższą przestrzeń w naszym środowisku.

Migracja między warstwami

Kolejnym krokiem, po zaplanowaniu fizycznej struktury warstw, powinien być dobór odpowiedniej metody migracji danych między nimi. Do tego celu konieczna będzie szczegółowa analiza biznesowa wartości przenoszonych danych oraz wybranie poziomu automatyzacji, który chcemy osiągnąć (zazwyczaj jest on pochodną ilości firmowych danych).

Część administratorów decyduje się na ręczne prowadzenie migracji danych między warstwami. Jeżeli wydajność nie stanowi najważniejszego kryterium, a danych jest na tyle niewiele, że można nad nimi zapanować, taka forma zarządzania jest dopuszczalna. Warto jednak wprowadzić pewien poziom automatyzacji (bazując na wcześniej określonych zasadach), aby odciążyć zarówno administratorów i zapewnić całemu środowisku znacznie większą wydajność.

Wiele dostępnych dziś w sprzedaży macierzy dyskowych umożliwia zainstalowanie różnych dysków (SSD, FC, SAS, SATA) w jednej obudowie i skonfigurowanie automatycznej migracji danych między stworzonymi w ten sposób warstwami. Dostępne jest też dodatkowe oprogramowanie (najpopularniejsze na polskim rynku to SANsymphony-V firmy DataCore Software), które umożliwia połączenie w jedną pulę macierzy różnych producentów oraz dołączenie do niej pojemności z kart SSD w serwerach oraz znajdujących się w nich twardych dysków.

– Migracja danych w tak stworzonym środowisku, uwzględniającym różnego rodzaju sprzęt pochodzący od różnych dostawców, odbywa się w sposób całkowicie automatyczny – podkreśla Sławomir Karpiński, Channel Manager w firmie Connect Distribution, odpowiedzialny za sprzedaż oprogramowania DataCore Software w Polsce. – Daje to bardzo komfortową sytuację resellerom, którzy mogą zaoferować usługę analizy aktualnego stanu środowiska pamięci masowych klienta, rozbudować je o brakujące elementy i nałożyć na nie warstwę wirtualizacyjną. Oprogramowanie optymalizujące pracę pamięci masowych może nawet kilkakrotnie zwiększyć wydajność całego systemu i zapewnić jeszcze lepsze wykorzystanie pojemności.

Archiwa aktywne

Coraz większe zainteresowanie klientów budzą tzw. obiektowe rozwiązania do archiwizacji danych. Ułatwiają one zarządzanie danymi niestrukturalnymi (dokumentami, multimediami), z których przyrostem nie radzą sobie szczególnie większe firmy.

– Na razie widzimy dopiero początek okresu świetności obiektowych rozwiązań archiwizacyjnych, ponieważ zapotrzebowanie na nie rośnie – mówi Jarosław Raćkowicz, Channel Manager w polskim oddziale Hitachi Data Systems. – Dzięki zapewnianym korzyściom wkrótce zaczną one nabierać coraz większego znaczenia, szczególnie w dużych przedsiębiorstwach. Natomiast dla małych alternatywą może być archiwizowanie w chmurze.

Klientów poszukujących rozwiązań do archiwizacji danych można podzielić na dwie podstawowe grupy.

– Pierwsza to ci, którzy potrzebują uporządkowanego archiwum danych historycznych, np. skanów faktur, poczty elektronicznej – twierdzi Andrzej Jachymczak, ekspert ds. sprzedaży pamięci masowych w IBM. – Natomiast druga to firmy i instytucje zobowiązane z mocy prawa do przechowywania danych przez określony czas (tzw. okres retencji). Są to m.in. operatorzy telekomunikacyjni, banki czy szpitale i inne jednostki medyczne przetwarzające dane pacjentów w formie elektronicznej.

Wdrożenie systemu archiwizacji to proces, który łączy w sobie elementy konsultingu biznesowego oraz integracji sprzętu i oprogramowania. Resellerzy i integratorzy, którzy zdecydują się na rozszerzenie oferty o takie usługi, nie powinni tych elementów rozdzielać, ponieważ finalny efekt wdrożenia może być dalece niezadowalający. Najbardziej korzystne i gwarantujące sukces projektu jest kompleksowe podejście do potrzeb klienta oraz współpraca w stworzeniu systemu najbardziej efektywnego i dostosowanego do posiadanych przez firmę rozwiązań.

Główni producenci rozwiązań do przechowywania i archiwizacji danych oraz ich dystrybutorzy na polskim rynku

Sprzęt:

Dell: AB, ABC Data, Connect Distribution

EMC: Arrow ECS, S4E

Fujitsu Technology Solutions: AB, ABC Data, Tech Data, Veracomp

Hitachi Data Systems: Avnet

HP: AB, ABC Data, Tech Data, Veracomp

IBM: Arrow ECS, Avnet, RRC, Tech Data

Imation: Action, Alstor, Diskus, Veracomp

Infortrend: Alstor, Asbis, EPA Systemy, Veracomp

LenovoEMC: AB, S4E, Tech Data, Veracomp

NetApp: Arrow ECS

Netgear: AB, ABC Data, Action, Tech Data, Veracomp

Oracle/Sun: Arrow ECS

Overland Storage: Alstor, Zycko

Promise: Alstor, Asbis, Format

QNAP: EPA Systemy, Konsorcjum FEN, Veracomp

Quantum: Arrow ECS, S4E, Veracomp

Seagate: AB, ABC Data, Asbis, Avnet, GDS Distribution, Incom

Sepaton: S4E

Synology: AB, EPA Systemy, Veracomp

Tandberg Data: ABC Data, Action, Alstor, Veracomp

Thecus: AB, EET, EPA Systemy

WD: ABC Data, Action, Incom, Tech Data

Zenith: S4E

ZyXEL: AB, Action, eD’ System, RRC

Oprogramowanie:

Acronis: Clico

Arkeia/WD: Dagma

Asigra: Zycko

Atempo: S4E

CA: Alstor, Veracomp

CommVault: S4E

DataCore: Connect Distribution

Dell: AB, ABC Data, Connect Distribution

EMC: Arrow ECS, S4E

EVault: Alstor

FalconStor: Avnet, S4E, Zycko

HP: AB, ABC Data, Tech Data, Veracomp

IBM: Arrow ECS, Avnet, RRC, Tech Data

Symantec: AB, ABC Data, Arrow ECS, Tech Data, Veracomp

Veeam: Avnet, Veracomp

Wydajna archiwizacja informacji tylko w warstwach

Najszybciej dostępne dane – tylko w sieci

Channel Manager, Hitachi Data Systems

Informacja w warstwach

BRS Practice Manager, EMC

Jak połączyć nośniki z danymi?

Migracja między warstwami

Archiwa aktywne

Podobne artykuły

Rubrik: ransomware nam niestraszny

Backup nadzieją na walkę z atakami ransomware

Nie ma ucieczki od hybrydy