Шта је Хадооп? Увод, архитектура, екосистем, компоненте

Преглед садржаја:

Anonim

Шта је Хадооп?

Апацхе Хадооп је софтверски оквир отвореног кода који се користи за развој апликација за обраду података које се извршавају у дистрибуираном рачунарском окружењу.

Апликације изграђене помоћу ХАДООП-а покрећу се на великим скуповима података распоређеним у кластере робних рачунара. Робни рачунари су јефтини и широко доступни. Они су углавном корисни за постизање веће рачунске снаге уз ниску цену.

Слично подацима који се налазе у локалном систему датотека система личних рачунара, у Хадооп-у подаци се налазе у дистрибуираном систему датотека који се назива Хадооп системом дистрибуираних датотека . Модел обраде заснован је на концепту „Локалности података“, при чему се рачунарска логика шаље чворовима кластера (серверу) који садрже податке. Ова рачунска логика није ништа друго него компајлирана верзија програма написана на језику високог нивоа као што је Јава. Такав програм обрађује податке ускладиштене у Хадооп ХДФС.

Да ли знаш? Рачунарски кластер се састоји од скупа више процесорских јединица (меморијски диск + процесор) који су међусобно повезани и делују као јединствени систем.

У овом упутству ћете научити,

  • Хадооп ЕцоСистем и компоненте
  • Хадооп Арцхитецтуре
  • Карактеристике „Хадооп-а“
  • Топологија мреже у Хадооп-у

Хадооп ЕцоСистем и компоненте

Испод дијаграма приказане су различите компоненте у Хадооп екосистему-

Апацхе Хадооп се састоји од два потпројекта -

  1. Хадооп МапРедуце: МапРедуце је рачунски модел и софтверски оквир за писање апликација које се изводе на Хадооп-у. Ови програми МапРедуце могу паралелно обрађивати огромне податке на великим кластерима рачунских чворова.
  2. ХДФС ( Хадооп дистрибуирани систем датотека ): ХДФС се брине о делу за складиштење Хадооп апликација. МапРедуце апликације троше податке из ХДФС-а. ХДФС креира вишеструке реплике блокова података и дистрибуира их на рачунским чворовима у кластеру. Ова дистрибуција омогућава поуздана и изузетно брза израчунавања.

Иако је Хадооп најпознатији по МапРедуце-у и његовом дистрибуираном систему датотека - ХДФС, тај израз се такође користи за породицу сродних пројеката који потпадају под кишобран дистрибуираног рачунарства и велике обраде података. Остали пројекти повезани са Хадооп -ом у Апацхе-у укључују Хиве, ХБасе, Махоут, Скооп, Флуме и ЗооКеепер.

Хадооп Арцхитецтуре

Архитектура Хадооп високог нивоа

Хадооп има Мастер-Славе архитектуру за складиштење података и дистрибуирану обраду података помоћу МапРедуце и ХДФС метода.

НамеНоде:

НамеНоде је представљао све датотеке и директоријуме који се користе у простору имена

ДатаНоде:

ДатаНоде вам помаже да управљате стањем ХДФС чвора и омогућава вам интеракцију са блоковима

МастерНоде:

Главни чвор вам омогућава паралелну обраду података помоћу Хадооп МапРедуце.

Славе чвор:

Подређени чворови су додатне машине у Хадооп кластеру које вам омогућавају да складиштите податке за обављање сложених прорачуна. Штавише, са свим помоћним чвором долази Таск Трацкер и ДатаНоде. То вам омогућава синхронизацију процеса са НамеНоде и Јоб Трацкер респективно.

У Хадооп-у, мастер или славе систем може да се постави у облаку или локално

Карактеристике „Хадооп-а“

• Погодно за анализу великих података

Како се Велики подаци теже дистрибуцији и неструктурирању у природи, ХАДООП кластери су најпогоднији за анализу великих података. С обзиром да се обрачунска логика (а не стварни подаци) приливају рачунарским чворовима, троши се мања пропусност мреже. Овај концепт назива се концептом локалитета података који помаже у повећању ефикасности апликација заснованих на Хадооп-у.

• Прилагодљивост

ХАДООП кластери се лако могу скалирати у било којој мери додавањем додатних чворова кластера и на тај начин омогућавају раст великих података. Такође, скалирање не захтева модификације логике апликације.

• Толеранција кварова

ХАДООП екосистем има могућност копирања улазних података на друге чворове кластера. На тај начин, у случају квара чвора кластера, обрада података и даље може да се настави коришћењем података ускладиштених на другом чвору кластера.

Топологија мреже у Хадооп-у

Топологија (уређење) мреже утиче на перформансе кластера Хадооп када величина кластера Хадооп расте. Поред перформанси, треба водити рачуна и о великој доступности и решавању кварова. Да би се постигао овај Хадооп, формирање кластера користи топологију мреже.

Обично је мрежна пропусност важан фактор који треба узети у обзир приликом формирања било које мреже. Међутим, како би мерење ширине пропусног опсега могло бити тешко, у Хадоопу је мрежа представљена као стабло, а растојање између чворова овог дрвета (број скокова) сматра се важним фактором у формирању Хадооп кластера. Овде је растојање између два чвора једнако збиру њихове удаљености од њиховог најближег заједничког претка.

Хадооп кластер се састоји од центра података, носача и чвора који заправо извршава послове. Овде се дата центар састоји од сталака, а сталак се састоји од чворова. Пропусни опсег мреже доступан процесима варира у зависности од локације процеса. Односно, расположиви пропусни опсег постаје све мањи како одлазимо из-

  • Процеси на истом чвору
  • Различити чворови на истом носачу
  • Чворови на различитим носачима истог центра података
  • Чворови у различитим дата центрима