Процес ЕТЛ (издвајање, трансформација и учитавање) у складишту података

Преглед садржаја:

Anonim

Шта је ЕТЛ?

ЕТЛ је процес који екстрахује податке из различитих изворних система, затим трансформише податке (попут примене прорачуна, спајања итд.) И коначно учитава податке у систем складишта података. Пуни облик ЕТЛ-а је Ектрацт, Трансформ анд Лоад.

Примамљиво је помислити да је стварање складишта података једноставно издвајање података из више извора и учитавање у базу података складишта података. Ово је далеко од истине и захтева сложен ЕТЛ процес. Процес ЕТЛ захтева активне улоге различитих заинтересованих страна, укључујући програмере, аналитичаре, тестере, највише руководиоце и технички је изазов.

Да би задржао своју вредност као алат за доносиоце одлука, систем складишта података треба да се мења с пословним променама. ЕТЛ је поновљена активност (свакодневна, недељна, месечна) система складишта података и мора бити окретан, аутоматизован и добро документован.

У овом ЕТЛ упутству научићете-

  • Шта је ЕТЛ?
  • Зашто вам треба ЕТЛ?
  • ЕТЛ процес у складиштима података
  • Корак 1) Екстракција
  • Корак 2) Трансформација
  • Корак 3) Учитавање
  • ЕТЛ Тоолс
  • Најбоље праксе ЕТЛ процеса

Зашто вам треба ЕТЛ?

Постоји много разлога за усвајање ЕТЛ-а у организацији:

  • Помаже компанијама да анализирају своје пословне податке за доношење критичних пословних одлука.
  • Трансакцијске базе података не могу одговорити на сложена пословна питања на која се може одговорити примјером ЕТЛ-а.
  • Складиште података пружа заједничко спремиште података
  • ЕТЛ пружа метод премештања података из различитих извора у складиште података.
  • Како се извори података мењају, складиште података ће се аутоматски ажурирати.
  • Добро дизајниран и документован ЕТЛ систем је скоро неопходан за успех пројекта Дата Варехоусе.
  • Омогућите верификацију правила трансформације података, агрегације и прорачуна.
  • ЕТЛ поступак омогућава поређење узорка података између извора и циљног система.
  • ЕТЛ процес може изводити сложене трансформације и захтева додатну површину за чување података.
  • ЕТЛ помаже у миграцији података у складиште података. Претворите у разне формате и типове да бисте се придржавали једног доследног система.
  • ЕТЛ је предефинисани процес за приступ изворним подацима и манипулацију њима у циљну базу података.
  • ЕТЛ у складишту података нуди дубок историјски контекст за пословање.
  • Помаже у побољшању продуктивности јер се кодификује и поново користи без потребе за техничким вештинама.

ЕТЛ процес у складиштима података

ЕТЛ је процес у 3 корака

ЕТЛ процес

Корак 1) Екстракција

У овом кораку ЕТЛ архитектуре подаци се из изворног система издвајају у сценско подручје. Ако се неке трансформације изврше у сценском подручју тако да перформансе изворног система не буду умањене. Такође, ако се оштећени подаци копирају директно из извора у базу података складишта података, повратак ће бити изазов. Предефинирајуће подручје даје прилику за валидацију извађених података пре него што се преселе у складиште података.

Складиште података треба да интегрише системе који имају различите

ДБМС, хардвер, оперативни системи и комуникацијски протоколи. Извори могу да укључују застареле апликације као што су Маинфрамес, прилагођене апликације, уређаји за контакт, попут банкомата, прекидачи за позиве, текстуалне датотеке, табеле, ЕРП, подаци добављача, између осталог и партнери.

Стога је потребна логичка мапа података пре него што се подаци физички издвоје и учитају. Ова мапа података описује однос између извора и циљних података.

Три методе екстракције података:

  1. Потпуна екстракција
  2. Делимично издвајање - без обавештења о ажурирању.
  3. Делимично издвајање - са обавештењем о ажурирању

Без обзира на метод који се користи, екстракција не би требало да утиче на перформансе и време одзива изворних система. Ови изворни системи су базе података о производњи уживо. Свако успоравање или закључавање може утицати на резултат компаније.

Током вађења врше се неке валидације:

  • Ускладите записе са изворним подацима
  • Уверите се да није учитана нежељена пошта / нежељени подаци
  • Провера типа података
  • Уклоните све врсте дуплираних / фрагментираних података
  • Проверите да ли су сви тастери на свом месту или не

Корак 2) Трансформација

Подаци извучени са изворног сервера су сирови и не могу се користити у изворном облику. Због тога га треба очистити, мапирати и трансформисати. У ствари, ово је кључни корак где ЕТЛ процес додаје вредност и мења податке тако да могу да се генеришу проницљиви БИ извештаји.

То је један од важних концепата ЕТЛ-а где примените скуп функција на издвојеним подацима. Подаци који не захтевају никакву трансформацију називају се директним премештањем или пролазом кроз податке .

У кораку трансформације можете извршити прилагођене операције над подацима. На пример, ако корисник жели збир прихода од продаје који није у бази података. Или ако се име и презиме у табели налазе у различитим колонама. Могуће их је повезати пре утовара.

Питања интеграције података

Следе проблеми са интегритетом података:

  1. Различит правопис исте особе попут Јона, Џона итд.
  2. Постоји више начина за означавање назива предузећа попут Гоогле-а, Гоогле Инц.
  3. Употреба различитих имена попут Цлеавеланд, Цлевеланд.
  4. Може постојати случај да се различити бројеви рачуна генеришу у различитим апликацијама за истог купца.
  5. У неким подацима потребне датотеке остају празне
  6. Неважећи производ прикупљен на ПОС-у као ручни унос може довести до грешака.

Валидација се врши током ове фазе

  • Филтрирање - Изаберите само одређене колоне за учитавање
  • Коришћење правила и табела претраживања за стандардизацију података
  • Конверзија и кодирање скупова знакова
  • Конверзија мерних јединица попут конверзије датума и времена, конверзије валута, нумеричке конверзије итд.
  • Провера ваљаности прага података. На пример, старост не може бити већа од две цифре.
  • Валидација тока података из припремног подручја у међутабеле.
  • Обавезна поља не смеју бити празна.
  • Чишћење (на пример, мапирање НУЛЛ на 0 или Род мушког пола на „М“, а женског на „Ф“ итд.)
  • Поделите колону на вишеструке и спајање више колона у једну колону.
  • Премештање редова и колона,
  • Користите претраживања за обједињавање података
  • Коришћење било које сложене провере података (нпр. Ако су прва два ступца у реду празна, онда аутоматски одбија ред из обраде)

Корак 3) Учитавање

Учитавање података у циљну базу података складишта података је последњи корак ЕТЛ процеса. У типичном складишту података, огроман обим података треба учитати у релативно кратком периоду (ноћу). Дакле, поступак оптерећења треба оптимизовати за перформансе.

У случају квара оптерећења, механизми опоравка требају бити конфигурисани за поновно покретање од тачке квара без губитка интегритета података. Администратори складишта података требају надгледати, наставити, отказати учитавања према превладавајућим перформансама сервера.

Врсте утовара:

  • Почетно учитавање - попуњавање свих табела складишта података
  • Инкрементално оптерећење - периодично примењује текуће промене по потреби.
  • Потпуно освежавање - брисање садржаја једне или више табела и поновно учитавање са новим подацима.

Верификација оптерећења

  • Уверите се да подаци о кључном пољу не недостају нити су нули.
  • Тестирајте погледе моделирања на основу циљних табела.
  • Проверите да ли су комбиноване вредности и израчунате мере.
  • Провера података у табели димензија као и табели историје.
  • Провјерите БИ извјештаје о учитаној табели чињеница и димензија.

ЕТЛ Тоолс

На тржишту је доступно много алата за складиштење података. Ево неколико најистакнутијих:

1. МаркЛогиц:

МаркЛогиц је решење за складиштење података које чини интеграцију података лакшом и бржом коришћењем низа пословних карактеристика. Може да тражи различите врсте података попут докумената, односа и метаподатака.

хттпс://ввв.марклогиц.цом/продуцт/геттинг-стартед/


2. Орацле:

Орацле је водећа база података у индустрији. Нуди широк спектар решења Дата Варехоусе-а како за локалну употребу тако и за цлоуд. Помаже у оптимизацији корисничког искуства повећањем оперативне ефикасности.

хттпс://ввв.орацле.цом/индек.хтмл


3. Амазон РедСхифт:

Амазон Редсхифт је алатка Датаварехоусе. То је једноставан и исплатив алат за анализу свих врста података користећи стандардни СКЛ и постојеће БИ алате. Такође омогућава покретање сложених упита према петабајтима структурираних података.

хттпс://авс.амазон.цом/редсхифт/?нц2=х_м1

Овде је комплетна листа корисних алата за складиште података.

Најбоље праксе ЕТЛ процеса

Следе најбоље праксе за кораке ЕТЛ процеса:

Никада не покушавајте да очистите све податке:

Свака организација жели да сви подаци буду чисти, али већина њих није спремна да плати да чека или није спремна да чека. Чишћење свега тога једноставно би предуго трајало, па је боље да не покушавате да очистите све податке.

Никад ништа не чистите:

Увек планирајте да очистите нешто, јер је највећи разлог за изградњу складишта података нуђење чистијих и поузданијих података.

Одредите трошкове чишћења података:

Пре чишћења свих прљавих података, важно је да одредите трошкове чишћења за сваки прљави елемент података.

Да бисте убрзали обраду упита, имајте помоћне приказе и индексе:

Да бисте смањили трошкове складиштења, сажете податке сместите у траке дискова. Такође, потребан је компромис између количине података који ће се чувати и њихове детаљне употребе. Компромис на нивоу грануларности података како би се смањили трошкови складиштења.

Резиме:

  • ЕТЛ стоји за издвајање, трансформацију и учитавање.
  • ЕТЛ пружа метод премештања података из различитих извора у складиште података.
  • У првом кораку издвајања, подаци се из изворног система издвајају у сценско подручје.
  • У кораку трансформације, подаци извучени из извора се чисте и трансформишу.
  • Учитавање података у циљно складиште података последњи је корак ЕТЛ процеса.