Водич за Скооп: Шта је Апацхе Скооп? Архитектура & амп; Пример

Шта је СКООП у Хадоопу?

Апацхе СКООП (СКЛ-то-Хадооп) је алат дизајниран да подржи скупни извоз и увоз података у ХДФС из структурираних складишта података, као што су релационе базе података, складишта података предузећа и НоСКЛ системи. То је алат за миграцију података заснован на архитектури конектора који подржава додатке за пружање везе са новим спољним системима.

Пример примера употребе Хадооп Скооп-а је предузеће које покреће ноћни увоз Скооп-а за учитавање дневних података из производног трансакционог РДБМС-а у складиште података Хиве-а ради даље анализе.

Следеће у овом упутству за Апацхе Скооп научићемо о архитектури Апацхе Скооп.

Скооп Арцхитецтуре

Сви постојећи Системи за управљање базама података дизајнирани су с обзиром на СКЛ стандард. Међутим, сваки ДБМС се донекле разликује у односу на дијалект. Дакле, ова разлика представља изазове када је у питању пренос података кроз системе. Скооп конектори су компоненте које помажу у превазилажењу ових изазова.

Пренос података између Скооп Хадооп-а и спољног система за складиштење омогућен је уз помоћ Скооп-ових конектора.

Скооп има конекторе за рад са низом популарних релационих база података, укључујући МиСКЛ, ПостгреСКЛ, Орацле, СКЛ Сервер и ДБ2. Сваки од ових конектора зна како да комуницира са припадајућим ДБМС-ом. Постоји и генерички ЈДБЦ конектор за повезивање са било којом базом података која подржава Јава-ов ЈДБЦ протокол. Поред тога, Скооп Биг подаци пружају оптимизоване МиСКЛ и ПостгреСКЛ конекторе који користе АПИ-је специфичне за базу података за ефикасно обављање масовних трансфера.

Поред тога, Скооп у великим подацима има разне конекторе независних произвођача за складишта података, од складишта података предузећа (укључујући Нетезза, Терадата и Орацле) до НоСКЛ продавница (као што је Цоуцхбасе). Међутим, ови конектори не долазе са Скооп пакетом; оне треба да се преузму одвојено и могу се лако додати постојећој инсталацији Скооп-а.

Зашто нам треба Скооп?

Аналитичка обрада помоћу Хадооп-а захтева учитавање огромних количина података из различитих извора у Хадооп кластере. Овај процес масовног учитавања података у Хадооп, из хетерогених извора, а затим и његова обрада, долази са одређеним низом изазова. Одржавање и осигуравање доследности података и осигуравање ефикасног коришћења ресурса, неки су фактори које треба узети у обзир пре него што одаберете прави приступ за учитавање података.

Главна питања:

1. Учитавање података помоћу скрипти

Традиционални приступ коришћења скрипти за учитавање података није погодан за скупно учитавање података у Хадооп; овај приступ је неефикасан и дуготрајан.

2. Директан приступ спољним подацима путем апликације Мап-Редуце

Пружање директног приступа подацима који се налазе на спољним системима (без учитавања у Хадооп) за апликације за смањење мапе компликује ове апликације. Дакле, овај приступ није изводљив.

3. Поред могућности рада са огромним подацима, Хадооп може да ради и са подацима у неколико различитих облика. Дакле, за учитавање таквих хетерогених података у Хадооп, развијени су различити алати. Скооп и Флуме су два таква алата за учитавање података.

Следеће у овом водичу за Скооп са примерима научићемо о разлици између Скооп-а, Флуме-а и ХДФС-а.

Скооп вс Флуме вс ХДФС у Хадооп-у

Скооп	Флуме	ХДФС
Скооп се користи за увоз података из структурираних извора података као што је РДБМС.	Флуме се користи за премештање великих количина података у ХДФС.	ХДФС је дистрибуирани систем датотека који користи Хадооп екосистем за складиштење података.
Скооп има архитектуру засновану на конекторима. Конектори знају како да се повежу са одговарајућим извором података и преузму податке.	Флуме има архитектуру засновану на агентима. Овде је написан код (који се назива „агент“) који се брине за преузимање података.	ХДФС има дистрибуирану архитектуру где се подаци дистрибуирају кроз више чворова података.
ХДФС је одредиште за увоз података помоћу Скооп-а.	Подаци се пребацују у ХДФС кроз нула или више канала.	ХДФС је крајње одредиште за складиштење података.
Учитавање података Скооп-а не зависи од догађаја.	Оптерећење података флума може бити условљено догађајем.	ХДФС само чува податке који су му достављени на било који начин.
Да би се подаци увезли из структурираних извора података, морају се користити само наредбе Скооп, јер његови конектори знају како да ступају у интеракцију са структурираним изворима података и преузимају податке из њих.	Да би се учитали подаци за струјање, попут твеетова генерисаних на Твиттеру или датотека дневника веб сервера, треба користити Флуме. Флуме агенси су направљени за преузимање протока података.	ХДФС има своје уграђене наредбе љуске за чување података у њему. ХДФС не може да увезе податке за стриминг