Dyskusja na temat taśm i ich przyszłości toczy się w świecie IT od kilku lat, czy to na łamach specjalistycznej prasy, blogach internetowych, podczas debat branżowych czy w trakcie spotkań z klientami. Cały czas wzbudza wiele emocji. Choć wydawać by się mogło, że dyskusja ta jest niewarta poświęconego czasu, bo przecież fakty przywoływane przez przeciwników technologii taśmowej są oczywiste i trudne do obalenia, to jednak w stanowisku drugiej strony nie trudno odnaleźć trafnych kontrargumentów.
Co w takim razie wygra, bardziej donośny głos czy może większość? Pewne jest, że historię napiszą sami użytkownicy. To oni zdecydują, czy wykorzystywanie tej technologii w dzisiejszych czasach ma jeszcze sens.
Historia napędów taśmowych w świecie IT sięga roku 1951. Wtedy to firma Remington Rand wyprodukowała pierwsze urządzenie do zapisu danych na nośnikach magnetycznych. Warto wspomnieć o parametrach samego napędu jak i nośnika: 6 ścieżek zapisu danych, gęstość zapisu danych na poziomie 128 bitów na cal, prędkość odczytu 7200 znaków na sekundę. Kolejne rewolucje nastąpiły w latach 80-tych XX wieku. Zmieniono sposób ułożenia danych na taśmach, dzięki czemu zwiększyły się zarówno pojemności, jak i prędkość zapisu/odczytu. Dziś, dominująca technologia LTO6 oferuje natywnie 2.5TB pojemności (6.25TB po kompresji), 2176 ścieżek zapisu danych oraz gęstość zapisu na poziomie 368Kbit na cal (3 tysiące razy więcej od możliwości pierwszego napędu taśmowego i pierwszej taśmy). W jeszcze większym stopniu zwiększyły się transfery – aktualnie do 160MB/sek.
Przez ten czas nie zmieniła się natomiast charakterystyka pracy taśm i napędów – sekwencyjność w najczystszej formie, co dziś jest uznawane za jedną z największych wad tego typu urządzeń.
Mamy więc do czynienia z technologią, która funkcjonuje od niemal 70 lat. Powiedzieć, że to w świecie IT jak cała epoka, to chyba za mało.
Co na to krytycy?
Wykorzystywanie taśm w środowiskach IT zmieniało się na zasadzie ewolucji. Coraz rzadziej pojawiały się jako podstawowe repozytorium dla danych, chowały się za urządzeniami dyskowymi oferując tanie i niezwykle pojemne repozytorium. I pewnie wszystko byłoby w porządku, gdyby nie grupa rewolucjonistów, której zamarzyło się wymazanie technologii taśmowej z rynku i zastąpienie jej wirtualnymi bibliotekami taśmowymi, technologiami deduplikacji i replikacji. Nie bez znaczenia pozostawał fakt, że najbardziej zagorzałymi przeciwnikami taśm byli producenci, którzy nie posiadali w swoim portfolio tych produktów lub wręcz nie oferowali dla nich wsparcia. Powstało nawet hasło, eufemistycznie mówiąc mało cenzuralne – „tape sucks”. Co ciekawe, wsparcie pojawiło się a hasło częściej od przeciwników wykorzystują obecnie zwolennicy chcący pokazać, że radykalne podejście nie zawsze jest najlepszym rozwiązaniem.
Taśmy są wolne i oferują słabe transfery – to kolejny zarzut. Gdyby spojrzeć bardzo wąsko na ten argument, wielu użytkowników mogłoby się z nim zgodzić. Proces mający na celu przeniesienie taśmy ze slotu biblioteki do napędu, zamontowanie nośnika a następnie przewinięcie go do odpowiedniego miejsca trwa. Gdy na taśmę zapisujemy lub odczytujemy dużo małych plików, oferowany transfer też nie może równać się z możliwościami dysków twardych. Odpowiedzmy sobie jednak na pytanie, czy w naszym scenariuszu wykorzystania taśm jest to typowy przypadek? Czy planujemy system backupu, w którym większość przypadków przywracania danych będzie wymagała przywołania nośnika i umieszczenia go w napędzie? Zdecydowanie nie. Dziś, taśmy mają zupełnie inne zadania, w których ilość wykonywanych procesów montowania została ograniczona. Tym samym struktura danych pozwala wykorzystać w sposób maksymalny transfer oferowany przez napęd.
Często pojawia się też pytanie o bezpieczeństwo danych. Przecież systemy dyskowe posiadają zabezpieczenia na poziomie grup RAID, dyski hot-spare, sygnalizują uszkodzenia natychmiast po ich pojawieniu się. A przecież o tym, że taśma jest uszkodzona, dowiadujemy się w momencie, w którym chcemy przywrócić dane. Wydawałoby się, że ciężko z tymi argumentami polemizować. Jednak dojrzała technologia potrafi i z tego obronić się. Jak? Załóżmy, że awarii ulega jedna taśma i jeden dysk z grupy, na której przechowywaliśmy dane. W przypadku systemów dyskowych natychmiast rozpoczyna się przebudowa, która w dobie wysoko pojemnych nośników trwa od kilku godzin do nawet kilku dni. W tym czasie wydajność całej grupy jest mocno ograniczona, zarówno przez backup, jak i odtwarzanie danych. Co więcej, ryzyko awarii kolejnego dysku podczas odbudowy jest zdecydowanie wyższe, a to może skończyć się nieodwracalną utratą danych. Co w przypadku taśm? W momencie kiedy odtwarzanie zostanie zainicjowane i nośnik okaże się wadliwy, system wybiera nową taśmę, która jest jego wierną kopią. Dane odtwarzamy natychmiast, z identyczną prędkością, bez żadnego procesu przebudowy. Jeśli dodamy do tego argument, że taśmy ulegają awariom zdecydowanie rzadziej niż dyski, to znowu okaże się, że przechowywanie danych w klasyczny sposób nie jest wcale mniej bezpieczne.
Czy taśmy dziś są nam jeszcze potrzebne?
Zarzutów w kierunku taśm jest znacznie więcej i nie sposób ich wszystkich wymienić. Ale przyjrzyjmy się faktom, które dowodzą, że ta technologia ma się całkiem dobrze. Zatrzymajmy się przy trwałości. Współcześnie produkowane nośniki są zaprojektowane w taki sposób, aby dane były z nich odczytywalne nawet po okresie 30 lat (zakładając, że warunki przechowywania spełniały wymogi producenta). I, o ile znane są sytuacje (i nie są one wcale rzadkością), kiedy taśmy nagrane kilkanaście lat temu pozwoliły na odtworzenie 100% zapisanych na nich danych, to w przypadku dysków twardych nie jest już tak łatwo. Nikt nie utrzymuje tak długo systemów dyskowych a jeśli nawet dyski były składowane w sejfie (i wyłączone), to ponowne ich uruchomienie po tak długim czasie nieaktywności często graniczy z cudem.
A co z kosztami eksploatacji? Tutaj różnica również jest kolosalna. Taśma raz nagrana jest odkładana do slotu biblioteki (lub do sejfu) i tam oczekuje na moment, w którym pojawi się potrzeba odczytania pewnych danych. Nie potrzebuje do tego zasilania, klimatyzacji oraz zajmuje mniej przestrzeni (w przeliczeniu na pojemność). Dyski, zupełnie odwrotnie – najlepiej dla ich żywotności, gdy pracują nieprzerwanie. Pobierają prąd, generują ciepło, wymagają serwisowania i ciągłego monitorowania. To wszystko przekłada się na wymierne koszty, zdecydowanie wyższe niż w przypadku taśm. Wyliczenia pokazują, że nakłady na zbudowanie i utrzymanie środowiska wielkości 2PB w przypadku wykorzystania urządzeń dyskowych jest ponad 3 razy droższe.
Do czego zatem wykorzystać taśmy aby w pełni wykorzystać ich możliwości i najlepsze cechy? W dobie digitalizacji, tworzenia milionów dokumentów w postaci cyfrowej, ogromnych archiwów, w których dane są głównie generowane a odczytywane rzadko, nie ma obecnie lepszej technologii. Taśmy oferujące olbrzymie pojemności, łatwą rozbudowę, zdolność do prostego` eksportowania nośników do innych lokalizacji w celach Disaster Recovery, zaczynają rysować się jako rozwiązanie idealne. Nie bez powodu przedsiębiorstwa z branży M&E (Media and Entertainment) masowo budują środowiska, w których dane ostatecznie są składowane na taśmach. Do tego możemy dodać rozwiązania typu HSM (Hierarchical Storage Management), w których system automatycznie, na podstawie zdefiniowanych reguł, przenosi pliki z systemów dyskowych na tańszy storage pozostawiając na systemie plików odnośnik, który pozwala na przywrócenie pliku z taśmy. A LTFS? To nowy filesysem, ogłoszony w kwietniu 2010 roku, który pozwala prezentować dane i oferować do nich dostęp z poziomu urządzenia taśmowego w taki sposób, jakby były przechowywane na urządzeniach dyskowych. Stało się to możliwe dzięki zapisywaniu danych i metadanych w odpowiednim formacie, dzięki czemu, w odróżnieniu od systemów hierarchicznego składowania danych, nie ma konieczności wykorzystywania zewnętrznych baz danych opisujących strukturę systemu plików i jego zawartości. Każdy taki nośnik można zamontować w dowolnym napędzie taśmowym wspierającym technologię LTFS i uzyskać dostęp do zapisanych na nim danych. Wygoda w przesyłaniu dużej porcji informacji połączona z oferowanym bezpieczeństwem, łatwością implementacji i, co najważniejsze, z niewielkimi kosztami, pozwala na dynamiczny rozwój technologii taśmowej.
Cały czas jesteśmy świadkami pojawiających się nowych generacji taśm i napędów. Z każdą nową edycją wzrastają transfery i pojemności – w pewnym przybliżeniu jest zachowany dwukrotny wzrost tych parametrów. Na koniec roku 2015 zapowiadane jest pojawienie się 7. generacji najpopularniejszej dziś technologii – LTO, a od niedawna dostępne są plany uwzględniające 10. generację o zawrotnej pojemności 120TB - zakładając wykorzystanie kompresji sprzętowej. Czy tak wyglądałaby technologia i plany jej rozwoju, gdyby faktycznie rację mieli Ci, którzy nazywają ją „umierającą”?
Subiektywnie
Technologia taśmowa ugruntowuje swoją pozycję na rynku od niemal 70 lat. Na początku swojej historii medium to było jedyną rozsądną możliwością gromadzenia dużej ilości danych jako backupy i archiwa. Z czasem jej rola zmieniała się ale nie można powiedzieć, że w którymś momencie technologia ta znalazła się u schyłku życia. Tak samo jest i dziś. Taśmy nie zostały pozbawione swoich wad ale nadal nie wymyślono nic lepszego, co adresowałoby potrzeby współczesnych środowisk i problemy gromadzenia terabajtów danych w tani sposób. Głównie dzięki konkurencyjności pod względem kosztowym, możliwości przechowywania olbrzymich ilości danych na niewielkiej powierzchni oraz bezobsługowości, z taśmami będziemy spotykać się jeszcze przez wiele lat. Nie będzie przesadą, jeśli powiemy, że jest to technologia, która na rynku informatycznym będzie gościła najdłużej spośród wszystkich innych.
Autor: Przemysław Jagoda architekt systemów backupu, Infonet Projekt SA
Historia napędów taśmowych w świecie IT sięga roku 1951. Wtedy to firma Remington Rand wyprodukowała pierwsze urządzenie do zapisu danych na nośnikach magnetycznych. Warto wspomnieć o parametrach samego napędu jak i nośnika: 6 ścieżek zapisu danych, gęstość zapisu danych na poziomie 128 bitów na cal, prędkość odczytu 7200 znaków na sekundę. Kolejne rewolucje nastąpiły w latach 80-tych XX wieku. Zmieniono sposób ułożenia danych na taśmach, dzięki czemu zwiększyły się zarówno pojemności, jak i prędkość zapisu/odczytu. Dziś, dominująca technologia LTO6 oferuje natywnie 2.5TB pojemności (6.25TB po kompresji), 2176 ścieżek zapisu danych oraz gęstość zapisu na poziomie 368Kbit na cal (3 tysiące razy więcej od możliwości pierwszego napędu taśmowego i pierwszej taśmy). W jeszcze większym stopniu zwiększyły się transfery – aktualnie do 160MB/sek.
Przez ten czas nie zmieniła się natomiast charakterystyka pracy taśm i napędów – sekwencyjność w najczystszej formie, co dziś jest uznawane za jedną z największych wad tego typu urządzeń.
Mamy więc do czynienia z technologią, która funkcjonuje od niemal 70 lat. Powiedzieć, że to w świecie IT jak cała epoka, to chyba za mało.
Co na to krytycy?
Wykorzystywanie taśm w środowiskach IT zmieniało się na zasadzie ewolucji. Coraz rzadziej pojawiały się jako podstawowe repozytorium dla danych, chowały się za urządzeniami dyskowymi oferując tanie i niezwykle pojemne repozytorium. I pewnie wszystko byłoby w porządku, gdyby nie grupa rewolucjonistów, której zamarzyło się wymazanie technologii taśmowej z rynku i zastąpienie jej wirtualnymi bibliotekami taśmowymi, technologiami deduplikacji i replikacji. Nie bez znaczenia pozostawał fakt, że najbardziej zagorzałymi przeciwnikami taśm byli producenci, którzy nie posiadali w swoim portfolio tych produktów lub wręcz nie oferowali dla nich wsparcia. Powstało nawet hasło, eufemistycznie mówiąc mało cenzuralne – „tape sucks”. Co ciekawe, wsparcie pojawiło się a hasło częściej od przeciwników wykorzystują obecnie zwolennicy chcący pokazać, że radykalne podejście nie zawsze jest najlepszym rozwiązaniem.
Taśmy są wolne i oferują słabe transfery – to kolejny zarzut. Gdyby spojrzeć bardzo wąsko na ten argument, wielu użytkowników mogłoby się z nim zgodzić. Proces mający na celu przeniesienie taśmy ze slotu biblioteki do napędu, zamontowanie nośnika a następnie przewinięcie go do odpowiedniego miejsca trwa. Gdy na taśmę zapisujemy lub odczytujemy dużo małych plików, oferowany transfer też nie może równać się z możliwościami dysków twardych. Odpowiedzmy sobie jednak na pytanie, czy w naszym scenariuszu wykorzystania taśm jest to typowy przypadek? Czy planujemy system backupu, w którym większość przypadków przywracania danych będzie wymagała przywołania nośnika i umieszczenia go w napędzie? Zdecydowanie nie. Dziś, taśmy mają zupełnie inne zadania, w których ilość wykonywanych procesów montowania została ograniczona. Tym samym struktura danych pozwala wykorzystać w sposób maksymalny transfer oferowany przez napęd.
Często pojawia się też pytanie o bezpieczeństwo danych. Przecież systemy dyskowe posiadają zabezpieczenia na poziomie grup RAID, dyski hot-spare, sygnalizują uszkodzenia natychmiast po ich pojawieniu się. A przecież o tym, że taśma jest uszkodzona, dowiadujemy się w momencie, w którym chcemy przywrócić dane. Wydawałoby się, że ciężko z tymi argumentami polemizować. Jednak dojrzała technologia potrafi i z tego obronić się. Jak? Załóżmy, że awarii ulega jedna taśma i jeden dysk z grupy, na której przechowywaliśmy dane. W przypadku systemów dyskowych natychmiast rozpoczyna się przebudowa, która w dobie wysoko pojemnych nośników trwa od kilku godzin do nawet kilku dni. W tym czasie wydajność całej grupy jest mocno ograniczona, zarówno przez backup, jak i odtwarzanie danych. Co więcej, ryzyko awarii kolejnego dysku podczas odbudowy jest zdecydowanie wyższe, a to może skończyć się nieodwracalną utratą danych. Co w przypadku taśm? W momencie kiedy odtwarzanie zostanie zainicjowane i nośnik okaże się wadliwy, system wybiera nową taśmę, która jest jego wierną kopią. Dane odtwarzamy natychmiast, z identyczną prędkością, bez żadnego procesu przebudowy. Jeśli dodamy do tego argument, że taśmy ulegają awariom zdecydowanie rzadziej niż dyski, to znowu okaże się, że przechowywanie danych w klasyczny sposób nie jest wcale mniej bezpieczne.
Czy taśmy dziś są nam jeszcze potrzebne?
Zarzutów w kierunku taśm jest znacznie więcej i nie sposób ich wszystkich wymienić. Ale przyjrzyjmy się faktom, które dowodzą, że ta technologia ma się całkiem dobrze. Zatrzymajmy się przy trwałości. Współcześnie produkowane nośniki są zaprojektowane w taki sposób, aby dane były z nich odczytywalne nawet po okresie 30 lat (zakładając, że warunki przechowywania spełniały wymogi producenta). I, o ile znane są sytuacje (i nie są one wcale rzadkością), kiedy taśmy nagrane kilkanaście lat temu pozwoliły na odtworzenie 100% zapisanych na nich danych, to w przypadku dysków twardych nie jest już tak łatwo. Nikt nie utrzymuje tak długo systemów dyskowych a jeśli nawet dyski były składowane w sejfie (i wyłączone), to ponowne ich uruchomienie po tak długim czasie nieaktywności często graniczy z cudem.
A co z kosztami eksploatacji? Tutaj różnica również jest kolosalna. Taśma raz nagrana jest odkładana do slotu biblioteki (lub do sejfu) i tam oczekuje na moment, w którym pojawi się potrzeba odczytania pewnych danych. Nie potrzebuje do tego zasilania, klimatyzacji oraz zajmuje mniej przestrzeni (w przeliczeniu na pojemność). Dyski, zupełnie odwrotnie – najlepiej dla ich żywotności, gdy pracują nieprzerwanie. Pobierają prąd, generują ciepło, wymagają serwisowania i ciągłego monitorowania. To wszystko przekłada się na wymierne koszty, zdecydowanie wyższe niż w przypadku taśm. Wyliczenia pokazują, że nakłady na zbudowanie i utrzymanie środowiska wielkości 2PB w przypadku wykorzystania urządzeń dyskowych jest ponad 3 razy droższe.
Do czego zatem wykorzystać taśmy aby w pełni wykorzystać ich możliwości i najlepsze cechy? W dobie digitalizacji, tworzenia milionów dokumentów w postaci cyfrowej, ogromnych archiwów, w których dane są głównie generowane a odczytywane rzadko, nie ma obecnie lepszej technologii. Taśmy oferujące olbrzymie pojemności, łatwą rozbudowę, zdolność do prostego` eksportowania nośników do innych lokalizacji w celach Disaster Recovery, zaczynają rysować się jako rozwiązanie idealne. Nie bez powodu przedsiębiorstwa z branży M&E (Media and Entertainment) masowo budują środowiska, w których dane ostatecznie są składowane na taśmach. Do tego możemy dodać rozwiązania typu HSM (Hierarchical Storage Management), w których system automatycznie, na podstawie zdefiniowanych reguł, przenosi pliki z systemów dyskowych na tańszy storage pozostawiając na systemie plików odnośnik, który pozwala na przywrócenie pliku z taśmy. A LTFS? To nowy filesysem, ogłoszony w kwietniu 2010 roku, który pozwala prezentować dane i oferować do nich dostęp z poziomu urządzenia taśmowego w taki sposób, jakby były przechowywane na urządzeniach dyskowych. Stało się to możliwe dzięki zapisywaniu danych i metadanych w odpowiednim formacie, dzięki czemu, w odróżnieniu od systemów hierarchicznego składowania danych, nie ma konieczności wykorzystywania zewnętrznych baz danych opisujących strukturę systemu plików i jego zawartości. Każdy taki nośnik można zamontować w dowolnym napędzie taśmowym wspierającym technologię LTFS i uzyskać dostęp do zapisanych na nim danych. Wygoda w przesyłaniu dużej porcji informacji połączona z oferowanym bezpieczeństwem, łatwością implementacji i, co najważniejsze, z niewielkimi kosztami, pozwala na dynamiczny rozwój technologii taśmowej.
Cały czas jesteśmy świadkami pojawiających się nowych generacji taśm i napędów. Z każdą nową edycją wzrastają transfery i pojemności – w pewnym przybliżeniu jest zachowany dwukrotny wzrost tych parametrów. Na koniec roku 2015 zapowiadane jest pojawienie się 7. generacji najpopularniejszej dziś technologii – LTO, a od niedawna dostępne są plany uwzględniające 10. generację o zawrotnej pojemności 120TB - zakładając wykorzystanie kompresji sprzętowej. Czy tak wyglądałaby technologia i plany jej rozwoju, gdyby faktycznie rację mieli Ci, którzy nazywają ją „umierającą”?
Subiektywnie
Technologia taśmowa ugruntowuje swoją pozycję na rynku od niemal 70 lat. Na początku swojej historii medium to było jedyną rozsądną możliwością gromadzenia dużej ilości danych jako backupy i archiwa. Z czasem jej rola zmieniała się ale nie można powiedzieć, że w którymś momencie technologia ta znalazła się u schyłku życia. Tak samo jest i dziś. Taśmy nie zostały pozbawione swoich wad ale nadal nie wymyślono nic lepszego, co adresowałoby potrzeby współczesnych środowisk i problemy gromadzenia terabajtów danych w tani sposób. Głównie dzięki konkurencyjności pod względem kosztowym, możliwości przechowywania olbrzymich ilości danych na niewielkiej powierzchni oraz bezobsługowości, z taśmami będziemy spotykać się jeszcze przez wiele lat. Nie będzie przesadą, jeśli powiemy, że jest to technologia, która na rynku informatycznym będzie gościła najdłużej spośród wszystkich innych.
Autor: Przemysław Jagoda architekt systemów backupu, Infonet Projekt SA