Шта је МапРедуце у Хадооп-у?
МапРедуце је софтверски оквир и модел програмирања који се користи за обраду огромних количина података. Програм МапРедуце ради у две фазе, и то Мап анд Редуце. Задаци на мапи се баве цепањем и мапирањем података, док се Смањи задаци премештају и смањују подаци.
Хадооп је способан да покреће програме МапРедуце написане на разним језицима: Јава, Руби, Питхон и Ц ++. Програми Мап Редуце у рачунарству у облаку су паралелне природе, па су стога врло корисни за обављање велике анализе података користећи више машина у кластеру.
Улаз у сваку фазу су парови кључ / вредност . Поред тога, сваки програмер мора да прецизира две функције: карту функцију и смањити функцију .
У овом почетном водичу за Хадооп МапРедуце научићете-
- Шта је МапРедуце у Хадооп-у?
- Детаљно је објашњено МапРедуце Арцхитецтуре у великим подацима
- Детаљно је објашњено у МапРедуце Арцхитецтуре
- Како МапРедуце организује рад?
Детаљно је објашњено МапРедуце Арцхитецтуре у великим подацима
Читав процес пролази кроз четири фазе извршења, наиме, раздвајање, мапирање, премештање и смањивање.
Сада у овом водичу за МапРедуце, хајде да разумемо са примером МапРедуце-
Узмите у обзир да имате следеће улазне податке за свој МапРедуце у програму за велике податке
Welcome to Hadoop ClassHadoop is goodHadoop is bad
Коначни излаз задатка МапРедуце је
лоше | 1 |
Класа | 1 |
Добро | 1 |
Хадооп | 3 |
је | 2 |
до | 1 |
Добродошли | 1 |
Подаци пролазе кроз следеће фазе МапРедуце-а у великим подацима
Улазне поделе:
Улаз у задатак МапРедуце у Биг Дата подијељен је на дијелове фиксне величине који се називају инпут сплит-и. Улазни сплит је дио улаза који троши једна мапа
Мапирање
Ово је прва фаза у извршавању програма за смањење карте. У овој фази подаци се у сваком поделу преносе у функцију мапирања да би се произвеле излазне вредности. У нашем примеру, задатак фазе мапирања је да се изброји број појављивања сваке речи из улазних подела (више детаља о подели уноса дато је у наставку) и да се припреми листа у облику <реч, учесталост
Премештање
Ова фаза троши излазне фазе мапирања. Његов задатак је обједињавање релевантних записа из излаза фазе мапирања. У нашем примеру, исте речи су повезане заједно са њиховом учесталошћу.
Смањивање
У овој фази агрегирају се излазне вредности из фазе мешања. Ова фаза комбинује вредности из фазе мешања и враћа једну излазну вредност. Укратко, ова фаза резимира комплетан скуп података.
У нашем примеру, ова фаза агрегира вредности из фазе мешања, тј. Израчунава укупне појаве сваке речи.
Детаљно је објашњено у МапРедуце Арцхитецтуре
- За сваки сплит се креира један задатак мапе који затим извршава функцију мапе за сваки запис у сплит-у.
- Увек је корисно имати више поделе јер је време потребно за обраду поделе мало у односу на време потребно за обраду целог уноса. Када су поделе мање, обраду је боље учитати уравнотежено, јер поделе делимо паралелно.
- Међутим, такође није пожељно имати поделе премале величине. Када су поделе премале, преоптерећење управљања подјелама и креирањем задатака мапе почиње да доминира укупним временом извршења посла.
- За већину послова боље је направити величину поделе једнаку величини ХДФС блока (што је подразумевано 64 МБ).
- Извршење задатака мапе резултира уписивањем излаза на локални диск на одговарајућем чвору, а не у ХДФС.
- Разлог за одабир локалног диска уместо ХДФС-а је да се избегне репликација која се дешава у случају рада ХДФС продавнице.
- Излаз карте је средњи излаз који се обрађује редуцирањем задатака да би се добио коначни излаз.
- Када је посао завршен, излаз мапе се може бацити. Дакле, складиштење у ХДФС са репликацијом постаје претјерано.
- У случају квара чвора, пре него што излаз мапе потроши задатак смањења, Хадооп поново покреће задатак мапе на другом чвору и поново креира излаз мапе.
- Задатак „Смањи“ не ради на концепту локалности података. Излаз сваког задатка мапе доводи се у задатак смањења. Излаз мапе се преноси на машину на којој се изводи задатак редукције.
- На овој машини се излаз обједињује и затим прослеђује у кориснички дефинисану функцију смањења.
- За разлику од излаза мапе, редуковани излаз се чува у ХДФС-у (прва реплика се чува на локалном чвору, а остале реплике на чворовима изван регала). Дакле, писање смањеног резултата
Како МапРедуце организује рад?
Сада ћемо у овом упутству за МапРедуце научити како МапРедуце ради
Хадооп посао дели на задатке. Постоје две врсте задатака:
- Задаци на мапи (поделе и мапирање)
- Смањите задатке (мешање, смањивање)
што је горе поменуто.
Комплетним процесом извршења (извршавање задатака Мап и Редуце, оба) контролишу две врсте ентитета назване а
- Јобтрацкер : Понаша се као мајстор (одговоран за потпуно извршење послатог посла)
- Вишеструки трагачи задатака : понаша се попут робова, сваки од њих обавља посао
За сваки посао предат на извршење у систему постоји један Јобтрацкер који се налази на Наменодеу и постоји више трагача задатака који се налазе на Датанодеу .

- Посао је подељен на више задатака који се затим покрећу на више чворова података у кластеру.
- Одговорност је пратиоца посла да координира активност распоређивањем задатака за покретање на различитим чворовима података.
- Извршење појединачног задатка је затим брига о програму за праћење задатака, који се налази на сваком чвору података који извршава део посла.
- Одговорност трагача задатака је слање извештаја о напретку трагачу посла.
- Поред тога, трагач задатака повремено шаље сигнал „откуцаја срца“ Јобтрацкеру како би га обавестио о тренутном стању у систему.
- Тако трагач посла прати целокупан напредак сваког посла. У случају неуспеха задатка, програм за праћење послова може га прерасподелити на другом трагачу задатака.