Forstå Hadoop Distributed File System av John Karry

TheHadoop Distributed File System er en helt bærbar filsystem, som isalso distribuert, samt skalerbar for Hadoop rammeverk. Det er også afile system som har blitt skrevet i Java for den samme rammen. Hver HDFScluster som tilhører denne spesielle filsystemet inneholder et enkelt navn modus, samt en individuell klynge av datanoder som ikke alltid trenger å bepresent innenfor hver HDFS klynge hele tiden. Denne spesifikke distribuert filsystem er hva som gir regelmessig tilgang til applikasjonsdata, og thisapplication data er noe som alltid må være tillatt denne tilgangen viathe portal gjennom HDFS. Hver data node som er en del av HDFS klyngen doesserve sitt eget formål; og dette formålet er å tjene hovedsakelig konstant blokker ofdata gjennom nettverket ved hjelp av en unik protokoll som tilhører bare theHDFS.

HadoopDistributed File System

bruker TCP /IP-laget for å bære ut itscommunications. HDFS kan lagre store filer, og størrelsen på disse filene isequivalent til omtrent en multippel på 64 MB. Kunder som ønsker å communicatedirectly med HDFS må ha RPC, som er en forkortelse for Remote Procedure Callin for å kommunisere ordentlig. De store filer som HDFS kan overføre farten tomultiple maskiner samtidig.

Hadoop er basert på en Java-plattformen og støtter theprocessing av store datasett, som hva vi finner på Google. Den HadoopDistributed File System er en fullt integrateddevelopment miljø

som brukes mye av mange differentcompanies og organisasjoner for både, produkter og til å utføre forskning. Hadoopdistributed filsystem er årsaken til rask overføring av data mellom noder, som dermed tillater et system for å funksjonell uavbrutt i tilfelle av en svikt. Themain anvendelsen av dette systemet har vært i søkemotorer og for advertisingonline.

La oss forstå logikken bak HDFS. Den lagrer largefiles ved å fordele dataene blant en pool av datanoder. Master /slavearchitecture er brukt i denne, hvor hoved styrer en eller flere slaver. Theinformation om datanoder er lagret i individuelle navn noder, og datanodes er knyttet til hverandre som en klynge. For brukeren, vil det representere onesingle fil. Fordelen med HDFS er en pålitelig lagringsløsning for largefiles. Den underliggende årsak til dannelsen av HDFS er påliteligheten av data, selv i tilfelle av svikt.