Шта је МапРедуце у Хадооп-у? Архитектура - Пример

Преглед садржаја:

Anonim

Шта је МапРедуце у Хадооп-у?

МапРедуце је софтверски оквир и модел програмирања који се користи за обраду огромних количина података. Програм МапРедуце ради у две фазе, и то Мап анд Редуце. Задаци на мапи се баве цепањем и мапирањем података, док се Смањи задаци премештају и смањују подаци.

Хадооп је способан да покреће програме МапРедуце написане на разним језицима: Јава, Руби, Питхон и Ц ++. Програми Мап Редуце у рачунарству у облаку су паралелне природе, па су стога врло корисни за обављање велике анализе података користећи више машина у кластеру.

Улаз у сваку фазу су парови кључ / вредност . Поред тога, сваки програмер мора да прецизира две функције: карту функцију и смањити функцију .

У овом почетном водичу за Хадооп МапРедуце научићете-

  • Шта је МапРедуце у Хадооп-у?
  • Детаљно је објашњено МапРедуце Арцхитецтуре у великим подацима
  • Детаљно је објашњено у МапРедуце Арцхитецтуре
  • Како МапРедуце организује рад?

Детаљно је објашњено МапРедуце Арцхитецтуре у великим подацима

Читав процес пролази кроз четири фазе извршења, наиме, раздвајање, мапирање, премештање и смањивање.

Сада у овом водичу за МапРедуце, ​​хајде да разумемо са примером МапРедуце-

Узмите у обзир да имате следеће улазне податке за свој МапРедуце у програму за велике податке

Welcome to Hadoop ClassHadoop is goodHadoop is bad

МапРедуце Арцхитецтуре

Коначни излаз задатка МапРедуце је

лоше 1
Класа 1
Добро 1
Хадооп 3
је 2
до 1
Добродошли 1

Подаци пролазе кроз следеће фазе МапРедуце-а у великим подацима

Улазне поделе:

Улаз у задатак МапРедуце у Биг Дата подијељен је на дијелове фиксне величине који се називају инпут сплит-и. Улазни сплит је дио улаза који троши једна мапа

Мапирање

Ово је прва фаза у извршавању програма за смањење карте. У овој фази подаци се у сваком поделу преносе у функцију мапирања да би се произвеле излазне вредности. У нашем примеру, задатак фазе мапирања је да се изброји број појављивања сваке речи из улазних подела (више детаља о подели уноса дато је у наставку) и да се припреми листа у облику <реч, учесталост

Премештање

Ова фаза троши излазне фазе мапирања. Његов задатак је обједињавање релевантних записа из излаза фазе мапирања. У нашем примеру, исте речи су повезане заједно са њиховом учесталошћу.

Смањивање

У овој фази агрегирају се излазне вредности из фазе мешања. Ова фаза комбинује вредности из фазе мешања и враћа једну излазну вредност. Укратко, ова фаза резимира комплетан скуп података.

У нашем примеру, ова фаза агрегира вредности из фазе мешања, тј. Израчунава укупне појаве сваке речи.

Детаљно је објашњено у МапРедуце Арцхитецтуре

  • За сваки сплит се креира један задатак мапе који затим извршава функцију мапе за сваки запис у сплит-у.
  • Увек је корисно имати више поделе јер је време потребно за обраду поделе мало у односу на време потребно за обраду целог уноса. Када су поделе мање, обраду је боље учитати уравнотежено, јер поделе делимо паралелно.
  • Међутим, такође није пожељно имати поделе премале величине. Када су поделе премале, преоптерећење управљања подјелама и креирањем задатака мапе почиње да доминира укупним временом извршења посла.
  • За већину послова боље је направити величину поделе једнаку величини ХДФС блока (што је подразумевано 64 МБ).
  • Извршење задатака мапе резултира уписивањем излаза на локални диск на одговарајућем чвору, а не у ХДФС.
  • Разлог за одабир локалног диска уместо ХДФС-а је да се избегне репликација која се дешава у случају рада ХДФС продавнице.
  • Излаз карте је средњи излаз који се обрађује редуцирањем задатака да би се добио коначни излаз.
  • Када је посао завршен, излаз мапе се може бацити. Дакле, складиштење у ХДФС са репликацијом постаје претјерано.
  • У случају квара чвора, пре него што излаз мапе потроши задатак смањења, Хадооп поново покреће задатак мапе на другом чвору и поново креира излаз мапе.
  • Задатак „Смањи“ не ради на концепту локалности података. Излаз сваког задатка мапе доводи се у задатак смањења. Излаз мапе се преноси на машину на којој се изводи задатак редукције.
  • На овој машини се излаз обједињује и затим прослеђује у кориснички дефинисану функцију смањења.
  • За разлику од излаза мапе, редуковани излаз се чува у ХДФС-у (прва реплика се чува на локалном чвору, а остале реплике на чворовима изван регала). Дакле, писање смањеног резултата

Како МапРедуце организује рад?

Сада ћемо у овом упутству за МапРедуце научити како МапРедуце ради

Хадооп посао дели на задатке. Постоје две врсте задатака:

  1. Задаци на мапи (поделе и мапирање)
  2. Смањите задатке (мешање, смањивање)

што је горе поменуто.

Комплетним процесом извршења (извршавање задатака Мап и Редуце, ​​оба) контролишу две врсте ентитета назване а

  1. Јобтрацкер : Понаша се као мајстор (одговоран за потпуно извршење послатог посла)
  2. Вишеструки трагачи задатака : понаша се попут робова, сваки од њих обавља посао

За сваки посао предат на извршење у систему постоји један Јобтрацкер који се налази на Наменодеу и постоји више трагача задатака који се налазе на Датанодеу .

Како функционише Хадооп МапРедуце
  • Посао је подељен на више задатака који се затим покрећу на више чворова података у кластеру.
  • Одговорност је пратиоца посла да координира активност распоређивањем задатака за покретање на различитим чворовима података.
  • Извршење појединачног задатка је затим брига о програму за праћење задатака, који се налази на сваком чвору података који извршава део посла.
  • Одговорност трагача задатака је слање извештаја о напретку трагачу посла.
  • Поред тога, трагач задатака повремено шаље сигнал „откуцаја срца“ Јобтрацкеру како би га обавестио о тренутном стању у систему.
  • Тако трагач посла прати целокупан напредак сваког посла. У случају неуспеха задатка, програм за праћење послова може га прерасподелити на другом трагачу задатака.