Шта је СКООП у Хадоопу?
Апацхе СКООП (СКЛ-то-Хадооп) је алат дизајниран да подржи скупни извоз и увоз података у ХДФС из структурираних складишта података, као што су релационе базе података, складишта података предузећа и НоСКЛ системи. То је алат за миграцију података заснован на архитектури конектора који подржава додатке за пружање везе са новим спољним системима.
Пример примера употребе Хадооп Скооп-а је предузеће које покреће ноћни увоз Скооп-а за учитавање дневних података из производног трансакционог РДБМС-а у складиште података Хиве-а ради даље анализе.
Следеће у овом упутству за Апацхе Скооп научићемо о архитектури Апацхе Скооп.
Скооп Арцхитецтуре
Сви постојећи Системи за управљање базама података дизајнирани су с обзиром на СКЛ стандард. Међутим, сваки ДБМС се донекле разликује у односу на дијалект. Дакле, ова разлика представља изазове када је у питању пренос података кроз системе. Скооп конектори су компоненте које помажу у превазилажењу ових изазова.
Пренос података између Скооп Хадооп-а и спољног система за складиштење омогућен је уз помоћ Скооп-ових конектора.
Скооп има конекторе за рад са низом популарних релационих база података, укључујући МиСКЛ, ПостгреСКЛ, Орацле, СКЛ Сервер и ДБ2. Сваки од ових конектора зна како да комуницира са припадајућим ДБМС-ом. Постоји и генерички ЈДБЦ конектор за повезивање са било којом базом података која подржава Јава-ов ЈДБЦ протокол. Поред тога, Скооп Биг подаци пружају оптимизоване МиСКЛ и ПостгреСКЛ конекторе који користе АПИ-је специфичне за базу података за ефикасно обављање масовних трансфера.
Поред тога, Скооп у великим подацима има разне конекторе независних произвођача за складишта података, од складишта података предузећа (укључујући Нетезза, Терадата и Орацле) до НоСКЛ продавница (као што је Цоуцхбасе). Међутим, ови конектори не долазе са Скооп пакетом; оне треба да се преузму одвојено и могу се лако додати постојећој инсталацији Скооп-а.
Зашто нам треба Скооп?
Аналитичка обрада помоћу Хадооп-а захтева учитавање огромних количина података из различитих извора у Хадооп кластере. Овај процес масовног учитавања података у Хадооп, из хетерогених извора, а затим и његова обрада, долази са одређеним низом изазова. Одржавање и осигуравање доследности података и осигуравање ефикасног коришћења ресурса, неки су фактори које треба узети у обзир пре него што одаберете прави приступ за учитавање података.
Главна питања:
1. Учитавање података помоћу скрипти
Традиционални приступ коришћења скрипти за учитавање података није погодан за скупно учитавање података у Хадооп; овај приступ је неефикасан и дуготрајан.
2. Директан приступ спољним подацима путем апликације Мап-Редуце
Пружање директног приступа подацима који се налазе на спољним системима (без учитавања у Хадооп) за апликације за смањење мапе компликује ове апликације. Дакле, овај приступ није изводљив.
3. Поред могућности рада са огромним подацима, Хадооп може да ради и са подацима у неколико различитих облика. Дакле, за учитавање таквих хетерогених података у Хадооп, развијени су различити алати. Скооп и Флуме су два таква алата за учитавање података.
Следеће у овом водичу за Скооп са примерима научићемо о разлици између Скооп-а, Флуме-а и ХДФС-а.
Скооп вс Флуме вс ХДФС у Хадооп-у
Скооп | Флуме | ХДФС |
---|---|---|
Скооп се користи за увоз података из структурираних извора података као што је РДБМС. | Флуме се користи за премештање великих количина података у ХДФС. | ХДФС је дистрибуирани систем датотека који користи Хадооп екосистем за складиштење података. |
Скооп има архитектуру засновану на конекторима. Конектори знају како да се повежу са одговарајућим извором података и преузму податке. | Флуме има архитектуру засновану на агентима. Овде је написан код (који се назива „агент“) који се брине за преузимање података. | ХДФС има дистрибуирану архитектуру где се подаци дистрибуирају кроз више чворова података. |
ХДФС је одредиште за увоз података помоћу Скооп-а. | Подаци се пребацују у ХДФС кроз нула или више канала. | ХДФС је крајње одредиште за складиштење података. |
Учитавање података Скооп-а не зависи од догађаја. | Оптерећење података флума може бити условљено догађајем. | ХДФС само чува податке који су му достављени на било који начин. |
Да би се подаци увезли из структурираних извора података, морају се користити само наредбе Скооп, јер његови конектори знају како да ступају у интеракцију са структурираним изворима података и преузимају податке из њих. | Да би се учитали подаци за струјање, попут твеетова генерисаних на Твиттеру или датотека дневника веб сервера, треба користити Флуме. Флуме агенси су направљени за преузимање протока података. | ХДФС има своје уграђене наредбе љуске за чување података у њему. ХДФС не може да увезе податке за стриминг |