आज हम big data के tutorial में एक बहुत महत्वपूर्ण topic what is Distributed file system (HDFS) and feature and goals in hindi को अच्छे से जानेंगे . तो चलिये शुरू करते है . hello दोस्तों आपका Hindi me iT में बहुत – बहुत अभिनन्दन है .
HDFS (Distributed file system)
- HDFS एक distributed file system है hadoop का . यानि की HDFS में data को distribute करते है . जो several machine के ऊपर hadoop के अंदर पाया जाता है .
- आपका जो data है वो different machine में होता है . वह data replicated होता है यानि की आप कह सकते है एक प्रकार का data साडी machine में होता है . ऐसा इसलिये होता है क्योंकि durability को insure कर सके और ability को high provide कर सके इसके साथ -साथ data भी durable हो जाता है . यानि data काफी time तक रहता है .
इसलिए हम कह सकते है. की अगर data हम same data को अलग – अलग machine में रखते है तो ability तो incise होगी ही उसके साथ -साथ durability भी incise हो जाती है .
3 . HDFS cost effective होता है क्योंकि ये commodity हार्डवेयर use करता है . इसमें बहुत सारे concept use होते है .
जैसे :- block ,data, node ये सारे concept मिलकर इसे cost effective बनाते है .
इनको भी पढ़े
Where use HDFS | इसे कहाँ use करते है
- very large file= बहुत बड़ी file में HDFS का use होता है . जिसमे अधिकतर file 100 megabytes में होती है . gigabytes या इससे भी अधिक size की file होती है उसमे HDFS का use करते है .
- Streaming data Access= data access को streaming करने के लिये HDFS का use करते है .यानी की जो पूरा data set है use पढने में जो time लगता है वह बहुत अधिक होता है . जो data को access करने में जो time लग वह बहुत कम है . इसलिए HDFS को वहाँ use करना चाहिए जहाँ data को पढना हो .
- HDFS का अपना एक architecture होता है की ये data को एक बार लिखता है तथा data को पढता बार – बार है . क्योंकि ये data को पढ़ता बहुत बार है . इसलिए stream data access अच्छा होता है .
- Commodity Hardware = Commodity Hardware में हम HDFS को use कर सकते है . क्योंकि low cost hardware पर काम करता है.
Where not use HDFS | HDFS को कहाँ use नही करते है
- Low latency data access = वह application जिनको बहुत time लगता है . data access करने के लिये उसे HDFS use करना नही चाहिए . यानि की आपके पास एक ऐसा application है जो requirement रखता है. use data कम time में मिल जाना चाहिए . तो ऐसे application में हम HDFS का use नही कर सकते है क्योंकि ये data को fast access करता है .
- Lost of small file= Lost of small file का मतलब एक big file होने की जगह आपके पास बहुत सारी small file है .तो वहाँ HDFS का use नही कर सकते . क्योंकि यहाँ पर name node है उसमे हम file definition को store करते है . यानी की file के meta data को store करते है . अगर file small size में बहुत सारी है तो हर एक file का अपना meta data अलग होगा उनको store करने में अधिक memory का use होगा . इस लिये हम बहुत सारी small file में HDFS use नही करते है .
Multiple write
Multiple write को हम वहाँ विल्कुल use नही कर सकते जहाँ multiple write होते हो . क्योंकि HDFS data को read बार – बार कर सकता है .लेकिन write एक बार कर सकता है. इसलिये HDFS का use नही कर सकते है .
Concepts of HDFS in hindi
HDFS के कॉन्सेप्ट्स में block , name node ,data node ये primary node तथा secondary name node होता है .
block
block जो होते है . वह minimum amount के data को ये read या write कर सकते है . HDFS के जो block होते है वे 128 MB के होते है . by default और configurable होते है . यानी इनको हम अपने तरीके से configure setting कर सकते है . file जो होती है HDFS में उनको हम small chunks में divide कर सकते है . और जो small chunks होते है वे अपने आप में independent units होते है . यानी की HDFS file है उसे small chunks में divide कर सकते है . और हर एक file small chunks अपने में independent units कहलाती है .
इनको भी पढ़े
Name node
name node जो होता है वह master worker pattern में काम करता है . जिसमे की master आपका name node होता है . और name node master होने के साथ -साथ controller तथा manager होता है . क्योंकि name node को सारी files के status के बारे में पता होता है इसके साथ -साथ file के meta data तथा file के बारे में सारी जानकारी होती है .किसी file के meta data में file को खोलने की permission ,file का नाम , file कहाँ allocate है ,हर एक block का location ये सभी जानकारी meta data में होती है . इसलिए ये master होता है .
Data node
data node जो होता है वो आपके वो block को store करता है . और retrieve करता है . जब उससे बोला जाता है तो और उसको order करता है name node . तो data node report करता है . सारी चीजे करके name node को . क्योंकि name node data node का manager है .तो इसे ये सारी चीजे periodically करनी होती है .क्योंकि सारे meta data होते है वह name node में store होते है . ये बहुत ही जरुरी होता है की जो भी reporting होगी यानी की जो भी data delete , replicate कर रहे है . वह सब कुछ name node को बताना होगा . अगर name node fail होजाता है किसी भी तरीके से तो जो file हमने store की है . उनको restrict करना थोड़ा difficult हो जाता है . इसी draw back को overcome करने के लिये secondary name node लाया गया है .
secondary name node
एक separate physical machine है . जो as a helper काम करता है name node काम करता है .तो secondary name node का helper होता है . जो perform करता है. periodic check pints यानी की ये timely check point create करता रहता है system को और name node से communication करता रहता है .जिससे उसके meta data का sceen short अपने पास रखता है या snapshot आपने पास रखता है . एक तरीके का backup होता है .जिससे downtime में यानी ज्यादा time ना लगे data को access करने में और data loss ना हो सके उसके लिये हम इस new concept कको लेकर आये.click
इनको भी पढ़े
- Cloud computing Benefits risk and limitation
- What is software testing tutorial
- What is software testing tutorial
HDFS – (Distributed file system)
HDFS को हम initially एक format structure में stared करते हैं एक distributed mode में stared किया जाता हैं.
Commands
अगर हमें start करना हैं HDFS को तो उससे पहले हमको format करना होगा . इसके लिये हमको $, hadoop , name node, high fun formate लिखते हैं फिर start करने के लिये हमें .
$start -dfs .sh लिखते हैं .
आसान शब्दों में आपको HDFS को start करना हैं करना हैं तो start करने से पहले format करना पड़ता हैं .उसके बाद start हो सकता हैं.
इनको भी पढ़े
Feature of HDFS in hindi
HDFS के total 5 feature हैं .
Highly Salable
HDFS (Distributed file system) का जो data होता हैं वह Highly Scalable होता हैं यानी की जो system होता हैं वो Highly Scalable होता हैं अगर आप large data की बात करे या small data की बात करे ये सारे data के लिये आपने आप को adept कर लेता हैं.
Replication
replication में जो node होते हैं वह same type के data को contain करते हैं . क्योंकि एक machine में data ख़राब हो गया तो वह वाकी machine में data मोजूद होता हैं इसलिये data का loss नहीं होता हैं.
Fault tolerance
अगर data को आप replicate करते हैं तो कोई भी fault आयेगा तो उस चीज को वो easily recover कर लेगा . क्योंकि data अभी भी मोजूद हैं
fault tolerance का मतलब होता हैं . अगर system में कोई failure हो जाता हैं उसको overcome करने के लिये जो capability होती हैं use fault tolerance कहते हैं और capability hadoop file distraction system में हैं यानी की ये system error free रखता हैं.
Portable
HDFS (Distributed file system) hadoop distributed file system हैं उसको इस तरीके से design किया जाता हैं . जहाँ पर हम एक platform दुसरे platform में अपने data को रख सकते हैं. Portable यहाँ पर आ जाती हैं जब different platform में एक ही काम हो रहा हो.
इनको भी पढ़े
Goals of HDFS (Distributed file system)
HDFS (Distributed file system) के basically तीन objective होता हैं.
Handling the hardware failure
Handling the hardware failure का काम basically hardware failure को handle करना होता हैं. HDFS (Distributed file system)में बहुत सारे machine होते हैं अगर एक machine fail हो जाती हैं तो HDFS (Distributed file system) quickly recover कर लेगा दूसरी machine से इस तरीके से hardware failure नहीं होता हैं और इसे handle कर लेता हैं.
जो HDFS (Distributed file system)होता हैं वह general purpose file में run करता हैं और इस general purpose file को read करता हैं.
Streaming data access
HDFS (Distributed file system) में हम streaming data access कर सकते हैं .लेकिन latency data access नहीं कर सकते हैं . latency data access में data को access fast करना होता है वो इसमें possible नहीं होता अगर आप data को पूरी तरह से read करना चाहते हैं एक बार में तो use stream data access कहते हैं और ये काम HDFS (Distributed file system) करता हैं.
Coherence model
coherence model का मतलब बो application जो HDFS (Distributed file system) में rum करते हैं उनका करना होता हैं इसमें रक बार लिखना तथा बहुत बार पढना होता हैं. अगर हम इसमें एक file को create करते हैं HDFS (Distributed file system) में तो हम उसको फिर से change नहीं कर सकते हैं . उसके अंदर के data को . लेकिन अगर उस file के अंदर और data add करना हो या फिर पहले से मोजूद data को delete करना चाहते हो तो वो काम कर सकते हैं .
आसान शब्दों में कहे तो coherence model का मतलब जो पहले से data मोजूद की value को change नहीं कर सकते हैं .click
इनको भी पढ़े
- Public, private, hybrid and community cloud model (in Hindi)
- waterfall model in hindi | linear sequence model in hindi
आशा करता हूँ आपको topic what is Distributed file system (HDFS) and feature and goals in hindi समझ में गया होगा . अगर आपको इससे related कोई question पूछना है तो आप comment करके पूछ सकते है . हम आपकी comment का जबाब जरुर देंगे . अगर हमारे द्वारा दी गयी जानकारी अच्छी लगी हो तो हमे comment करके जरुर बताये और आपका हमको कोई सुझाब हो तो उसे भी जरुर बताये . दोस्तों आपसे एक request है . आप इस जानकारी को आपने दोस्तों , रेस्तेदारो के साथ जरुर शेयर करे | धन्यबाद