what is Distributed file system (HDFS) and feature and goals in hindi

आज हम big data  के tutorial में एक बहुत महत्वपूर्ण topic what is Distributed file system (HDFS) and feature and goals in hindi को अच्छे से जानेंगे . तो चलिये शुरू करते है . hello दोस्तों आपका Hindi me iT में बहुत – बहुत अभिनन्दन है .

HDFS (Distributed file system)

  1. HDFS एक distributed file system है  hadoop का . यानि की HDFS में data को distribute करते है . जो several machine के ऊपर hadoop के अंदर पाया जाता है .
  2. आपका जो data है वो different machine में होता है . वह data replicated होता है यानि की आप कह सकते है एक प्रकार का data साडी machine में होता है . ऐसा इसलिये होता है क्योंकि durability को insure कर सके और ability को high provide कर सके इसके साथ -साथ data भी durable हो जाता है . यानि data काफी time तक रहता है .

  इसलिए हम कह सकते है. की अगर data हम same data को अलग – अलग machine में रखते है तो ability तो incise होगी ही उसके साथ -साथ durability  भी incise हो जाती है .

3 . HDFS cost effective होता है क्योंकि ये commodity हार्डवेयर use करता है . इसमें बहुत सारे concept use होते है .

जैसे :- block  ,data, node ये सारे concept मिलकर इसे cost effective बनाते है  .

इनको भी पढ़े

Where use HDFS | इसे कहाँ use करते है 

  1. very large file= बहुत बड़ी file में HDFS का use होता है . जिसमे  अधिकतर file 100 megabytes में होती है . gigabytes या इससे भी अधिक size की file होती है उसमे HDFS का use करते है .
  2. Streaming data Access= data access को streaming करने के लिये HDFS का use करते है .यानी  की जो पूरा data set है use पढने में जो time लगता है वह बहुत अधिक होता है . जो data को access करने में जो  time लग वह बहुत कम है . इसलिए HDFS को वहाँ use करना चाहिए जहाँ data को पढना हो .
  3. HDFS का अपना एक architecture होता है की ये data को एक बार लिखता है तथा data को पढता बार – बार है . क्योंकि ये data को पढ़ता बहुत बार है . इसलिए stream data access अच्छा होता है .
  4. Commodity Hardware  = Commodity Hardware  में हम HDFS को use कर सकते है . क्योंकि low cost hardware पर काम करता है.

type of big data in hindi

Where not use HDFS | HDFS को कहाँ use नही करते है

  1. Low latency  data access = वह application जिनको बहुत time लगता है . data access करने के लिये उसे HDFS use करना नही चाहिए . यानि की आपके पास एक ऐसा application है जो requirement रखता है. use data कम time में मिल जाना चाहिए . तो ऐसे application में हम HDFS का use नही कर सकते है क्योंकि ये data को fast access करता है .
  2. Lost of small file= Lost of small file का मतलब एक big file होने की जगह आपके पास बहुत सारी small file है .तो वहाँ HDFS का use नही कर सकते . क्योंकि यहाँ पर name node है  उसमे हम file definition को store करते है . यानी की file के meta data को store करते है . अगर file small size में बहुत सारी है तो  हर एक file का अपना meta data अलग होगा उनको store करने में अधिक memory का use होगा . इस लिये हम बहुत सारी small file में HDFS use नही करते है .

Multiple write

Multiple write को हम वहाँ विल्कुल use नही कर सकते जहाँ multiple write होते हो . क्योंकि HDFS data को read बार – बार कर सकता है .लेकिन write  एक बार कर सकता है. इसलिये  HDFS का use नही कर सकते है .

Concepts of HDFS in hindi

HDFS  के कॉन्सेप्ट्स में block  , name node ,data node ये primary node तथा secondary name node होता है .

block

block जो होते है . वह minimum amount के data को ये read या write कर सकते है . HDFS के  जो block होते है वे 128 MB के होते है . by default और configurable होते है . यानी इनको हम अपने तरीके  से configure setting कर सकते है . file जो होती है HDFS में उनको हम small chunks  में divide कर सकते है . और जो small chunks  होते है वे अपने आप में independent units होते है . यानी की HDFS file है उसे small chunks में divide कर सकते है . और हर एक file small chunks अपने में independent units कहलाती है .

इनको भी पढ़े

Name node

name node जो होता है वह master worker pattern में काम करता है . जिसमे की master आपका  name node होता है . और name node master होने के साथ -साथ controller तथा manager होता है . क्योंकि name node को सारी files के status के बारे में पता होता है  इसके साथ -साथ file के meta data तथा file के बारे में सारी जानकारी होती है .किसी file के meta data में file को खोलने की permission ,file का नाम , file कहाँ allocate है ,हर एक block का location ये सभी जानकारी meta data में होती है . इसलिए ये master होता है .

Data node 

data node जो होता है वो आपके वो block को store करता है . और retrieve करता है . जब उससे बोला जाता है तो और उसको order करता है name node . तो data node report करता है . सारी चीजे करके name node को . क्योंकि name node  data node का manager है .तो इसे ये सारी चीजे periodically करनी होती है .क्योंकि सारे meta data होते है वह name node में store होते है . ये बहुत ही जरुरी होता है की जो भी reporting होगी यानी की जो भी data delete , replicate कर रहे है  . वह सब कुछ name node को बताना होगा . अगर name node fail होजाता है किसी भी तरीके से तो जो file हमने store की है . उनको restrict करना थोड़ा  difficult हो जाता है . इसी draw back को overcome करने के लिये secondary name node लाया गया है .

secondary name node 

एक separate physical machine है . जो as a helper काम करता है name node काम करता है .तो secondary name node का  helper होता है . जो perform करता है. periodic check pints यानी की ये timely check point create करता रहता है system को  और name node से communication करता रहता है .जिससे उसके meta data का sceen short अपने पास रखता है या snapshot आपने पास रखता है . एक तरीके का backup होता है .जिससे downtime में यानी ज्यादा time ना लगे data को access करने में और data loss ना हो सके उसके लिये हम इस new concept कको लेकर आये.click

इनको भी पढ़े

HDFS –  (Distributed file system)

HDFS को हम initially एक format structure में stared करते हैं एक distributed mode में stared किया जाता हैं.

Commands

अगर हमें start करना हैं HDFS को तो उससे पहले हमको format करना होगा . इसके लिये हमको $, hadoop , name node, high fun formate लिखते हैं फिर start करने के लिये हमें .

$start -dfs .sh लिखते हैं .

आसान शब्दों में आपको HDFS को start करना हैं करना हैं तो start करने से पहले format करना पड़ता हैं .उसके बाद start हो सकता हैं.

इनको भी पढ़े 

Feature of HDFS in hindi

HDFS के total 5 feature हैं .

Highly Salable 

HDFS  (Distributed file system) का जो data होता हैं वह Highly Scalable होता हैं यानी की जो system होता हैं वो  Highly Scalable  होता हैं अगर आप large data की बात करे या small data की बात करे ये सारे data के लिये आपने आप को adept कर लेता हैं.

Replication

replication में जो node होते हैं वह same type के data को contain करते हैं . क्योंकि एक machine में data ख़राब हो गया तो वह वाकी machine में data मोजूद होता हैं इसलिये data का loss नहीं होता हैं.

Fault tolerance

अगर data को आप replicate करते हैं तो कोई भी fault आयेगा तो उस चीज को वो easily  recover कर लेगा . क्योंकि data अभी भी मोजूद हैं

fault tolerance का मतलब होता हैं . अगर system में कोई failure हो जाता हैं उसको overcome करने के लिये जो capability होती हैं use fault tolerance कहते हैं और capability hadoop file distraction system में हैं यानी की ये system error free रखता हैं.

Portable

HDFS  (Distributed file system) hadoop distributed file system हैं उसको इस तरीके से design किया जाता हैं . जहाँ पर हम एक platform दुसरे platform में अपने data को रख सकते हैं. Portable यहाँ पर आ जाती हैं जब different platform में एक ही काम हो रहा हो.

इनको भी पढ़े 

Goals of  HDFS  (Distributed file system) 

HDFS  (Distributed file system) के basically तीन objective होता हैं.

Handling the hardware failure

Handling the hardware failure का काम basically hardware   failure   को handle करना होता हैं. HDFS  (Distributed file system)में बहुत सारे machine होते हैं अगर एक machine fail हो जाती हैं तो HDFS  (Distributed file system) quickly recover कर लेगा दूसरी machine से इस तरीके से hardware failure नहीं होता हैं और इसे handle कर लेता हैं.

जो HDFS  (Distributed file system)होता हैं वह general  purpose  file में run करता हैं और इस general  purpose  file को read करता हैं.

Streaming data access 

HDFS  (Distributed file system) में हम streaming  data access कर सकते हैं .लेकिन latency data access नहीं कर सकते हैं .  latency data access में data को access fast करना होता है वो इसमें possible नहीं होता अगर आप data को पूरी तरह से read करना चाहते हैं एक बार में तो use stream data access कहते हैं और ये काम HDFS  (Distributed file system) करता हैं.

Coherence model

coherence model का मतलब बो application जो HDFS  (Distributed file system) में rum करते हैं उनका करना होता हैं इसमें रक बार लिखना तथा बहुत बार पढना होता हैं. अगर हम इसमें एक file को create करते हैं HDFS  (Distributed file system) में तो हम उसको फिर से change नहीं  कर सकते हैं . उसके अंदर के data को . लेकिन अगर उस file के अंदर और data add करना हो या फिर पहले से मोजूद data को delete करना चाहते हो तो वो काम कर सकते हैं .

आसान शब्दों में कहे तो coherence model  का मतलब जो पहले से data मोजूद की value को change नहीं कर सकते हैं .click

इनको भी पढ़े 

आशा  करता हूँ आपको topic what is Distributed file system (HDFS) and feature and goals in hindi समझ में गया होगा . अगर आपको इससे related कोई question पूछना है तो आप comment करके पूछ सकते है . हम आपकी comment का जबाब जरुर देंगे . अगर हमारे द्वारा दी गयी जानकारी अच्छी लगी हो तो हमे comment करके जरुर बताये और आपका हमको कोई सुझाब हो तो उसे भी जरुर बताये . दोस्तों आपसे एक request है . आप इस जानकारी को आपने दोस्तों , रेस्तेदारो के साथ जरुर शेयर करे | धन्यबाद

Leave a Comment