Efektywna deduplikacja danych w Hadoop

About The Book

Hadoop jest szeroko stosowany do masowego przechowywania danych. Mimo że jest bardzo odporny na awarie skalowalny i działa na standardowym sprzęcie nie zapewnia wydajnego i zoptymalizowanego rozwiązania do przechowywania danych. Gdy użytkownik przesyła pliki o tej samej zawartości do Hadoop wszystkie pliki są przechowywane w HDFS (Hadoop Distributed File System) nawet jeśli zawartość jest taka sama co prowadzi do powielania treści a tym samym do marnowania przestrzeni dyskowej. Deduplikacja danych to proces mający na celu zmniejszenie wymaganej pojemności pamięci ponieważ przechowywane są tylko unikalne instancje danych. Proces deduplikacji danych jest szeroko stosowany w serwerach plików systemach zarządzania bazami danych pamięciach kopii zapasowych i wielu innych rozwiązaniach pamięci masowej. Odpowiednia strategia deduplikacji pozwala na wystarczające wykorzystanie przestrzeni dyskowej w ramach ograniczonych urządzeń pamięci masowej. Hadoop nie zapewnia rozwiązania w zakresie deduplikacji danych. W niniejszej pracy moduł deduplikacji został zintegrowany z frameworkiem Hadoop w celu uzyskania zoptymalizowanego przechowywania danych.
Piracy-free
Piracy-free
Assured Quality
Assured Quality
Secure Transactions
Secure Transactions
Delivery Options
Please enter pincode to check delivery time.
*COD & Shipping Charges may apply on certain items.
Review final details at checkout.
downArrow

Details


LOOKING TO PLACE A BULK ORDER?CLICK HERE