ЕТЛ кошнице: Учитавање ЈСОН-а, КСМЛ-а, примера текстуалних података

Преглед садржаја:

Anonim

Кошница као ЕТЛ и алат за складиштење података на врху Хадооп екосистема пружа функције као што су моделирање података, манипулација подацима, обрада података и постављање упита. Издвајање података у кошници значи стварање табела у кошници и учитавање структурираних и полуструктурираних података, као и испитивање података на основу захтева.

За серијску обраду писаћемо прилагођене дефинисане скрипте користећи прилагођену мапу и смањивати скрипте помоћу скриптног језика. Пружа СКЛ окружење и подршку за лако постављање упита.

У овом упутству ћете научити-

  • Рад са структурираним подацима помоћу Хиве-а
  • Рад са полуструктурираним подацима користећи Хиве (КСМЛ, ЈСОН)
  • Кошница у пројектима у реалном времену - када и где користити

Рад са структурираним подацима помоћу Хиве-а

Структурирани подаци значе да су подаци у одговарајућем формату редова и колона. Ово је више попут РДБМС података са одговарајућим редовима и колонама.

Овде ћемо учитати структуриране податке присутне у текстуалним датотекама у Хиве-у

Корак 1) У овом кораку креирамо табелу "запослени_гуру" са именима колона као што су Ид, Име, Старост, Адреса, Плата и Одељење запослених са типовима података.

Из горњег снимка екрана можемо уочити следеће,

  1. Израда табеле "запослени_гуру"
  2. Учитавање података из Емплоиеес.ткт у табелу "запослени_гуру"

Корак 2) У овом кораку приказујемо садржај сачуван у овој табели помоћу команде „Селецт“. Садржај табеле можемо посматрати на следећем снимку екрана.

- Пример фрагмента кода

Упити које треба извршити

1) Create table employees_guru(Id INT, Name STRING, Age INT, Address STRING, Salary FLOAT, Department STRING)> Row format delimited> Fields terminated by ',';2) load data local inpath '/home/hduser/Employees.txt' into TABLE employees_guru;3) select * from employees_guru;

Рад са полуструктурираним подацима користећи Хиве (КСМЛ, ЈСОН)

Хиве изводи ЕТЛ функционалности у Хадооп екосистему делујући као ЕТЛ алат. У неким врстама апликација може бити тешко извршити редукцију мапа, Хиве може смањити сложеност и пружа најбоље решење за ИТ апликације у погледу сектора складиштења података.

Полуструктурирани подаци као што су КСМЛ и ЈСОН могу се обрађивати са мање сложености помоћу Хиве-а. Прво ћемо видети како можемо користити Хиве за КСМЛ.

КСМЛ ЗА ТАБЕЛУ

У овоме ћемо учитати КСМЛ податке у Хиве табеле и преузећемо вредности сачуване унутар КСМЛ тагова.

Корак 1) Стварање табеле „кмлсампле_гуру“ са стр колоном са типом низа података.

Из горњег снимка екрана можемо уочити следеће

  1. Израда табеле "кмлсампле_гуру"
  2. Учитавање података из тест.кмл у табелу "кмлсампле_гуру"

Корак 2) Помоћу методе КСПатх () моћи ћемо да дохватимо податке ускладиштене у КСМЛ ознакама.

Из горњег снимка екрана можемо уочити следеће

  1. Користећи КСПАТХ () методу дохваћамо вредности сачуване под / емп / есал / и / емп / енаме /
  2. Вредности су присутне унутар КСМЛ ознака. У овом кораку приказујемо стварне вредности сачуване под КСМЛ ознакама у табели „кмлсампле_гуру“

Корак 3) У овом кораку ћемо дохватити и приказати РАВ КСМЛ табеле „кмлсампле_гуру“.

Из горњег снимка екрана можемо уочити следеће

  • Стварни КСМЛ подаци који се приказују ознакама
  • Ако посматрамо једну ознаку, она је са „емп“ као надређена ознака, а „енаме“ и „есал“ као подређене ознаке.

Исјечак кода:

Упити које треба извршити

1) create table xmlsample_guru(str string); 2) load data local inpath '/home/hduser/test.xml' overwrite into table xmlsample_guru;3) select xpath(str,'emp/ename/text()'), xpath(str,'emp/esal/text()') from xmlsample_guru;

ЈСОН (ЈаваСцрипт Објецт Нотатион)

Подаци о Твиттер-у и веб локацијама чувају се у ЈСОН формату. Кад год покушамо да дохватимо податке са мрежних сервера, вратиће ЈСОН датотеке. Користећи Хиве као складиште података, можемо да учитамо ЈСОН податке у Хиве табеле стварањем шема.

ЈСОН ЗА СТАКЛО

У овоме ћемо учитати ЈСОН податке у Хиве табеле и дохватићемо вредности ускладиштене у ЈСОН шеми.

Корак 1) У овом кораку креираћемо ЈСОН назив табеле „јсон_гуру“. Једном створено учитавање и приказивање садржаја стварне шеме.

Из горњег снимка екрана можемо уочити следеће

  1. Израда табеле "јсон_гуру"
  2. Учитавање података из тест.јсон у табелу "јсон_гуру"
  3. Приказивање стварне шеме ЈСОН датотеке ускладиштене у јсон_гуру табелама

Корак 2) Користећи методу гет_јсон_објецт () можемо да дохватимо вредности података ускладиштене у ЈСОН хијерархији

Из горњег снимка екрана можемо уочити следеће

  1. Коришћењем гет_јсон_објецт (стр, '$. Ецоде) може да преузме вредности ецоде из табеле јсон_гуру. Слично томе, користећи гет_јсон_објецт (стр, '$. Енаме), гет_јсон_објецт (стр,' $. Сали), преузеће вредности енаме сал из табеле јсон_гуру
  2. Вредности ускладиштене у ЈСОН хијерархији у јсон_гуру

Исјечак кода

Упити које треба извршити

1) create table json_guru(str string);2) load data inpath 'home/hduser/test.json' into table json_guru;3) select * from json1;4) select get_json_object(str,'$.ecode') as ecode, get_json_object(str,'$.ename') as ename ,get_json_object(str,'$.sal') as salary from json_guru;

Комплекс ЈСОН ТО ХИВЕ ТАБЛЕ

У овоме ћемо учитати сложене ЈСОН податке у Хиве табеле и дохватићемо вредности сачуване у ЈСОН шеми

Корак 1) Стварање цомплекјсон_гуру са једним пољем колоне

Из горњег снимка екрана можемо уочити следеће

  1. Стварање на табели цомплекјсон_гуру са једним пољем колоне као низом података
  2. Учитавање података у цомплекјсон_гуру из сложене ЈСОН датотеке емп.јсон

Корак 2) Коришћењем гет_јсон_објецт можемо да дохватимо стварни садржај који се чува у хијерархији ЈСОН датотека.

Из следећег снимка екрана можемо да видимо излаз података ускладиштених у цомплекјсон_гуру.

Корак 3) У овом кораку смо помоћу команде „Селецт“ у ствари могли видети сложене ЈСОН податке ускладиштене у табели „цомплекјсон_гуру“

-Узорак исечка кода,

Упити које треба извршити

1) create table complexjson_guru(json string);2) load data inpath 'home/hduser/emp.json' into table complexjson_guru;3) select get_json_object(json,'$.ecode') as ecode ,get_json_object(json,'$.b') as code, get_json_object(json,'$.c') from complexjson_guru;4) select * from complexjson_guru;

Кошница у пројектима у реалном времену - када и где користити

Када и где користити кошницу на еколошком систему Хадооп:

Када

  • Када радите са снажним и моћним статистичким функцијама на Хадооп екосистему
  • Када радите са структурираном и полуструктурираном обрадом података
  • Као алат за складиштење података са Хадооп-ом
  • Може се користити уношење података у реалном времену са ХБАСЕ, Хиве

Где

  • За лакшу употребу ЕТЛ-а и алата за складиштење података
  • Да би се обезбедило окружење типа СКЛ и да се попут СКЛ-а врши упит помоћу ХИВЕКЛ-а
  • Да бисте користили и применили прилагођене скрипте мапа и редуктора за специфичне захтеве клијента