Архитектура складишта података, концепти и компоненте

Преглед садржаја:

Anonim

Концепти складишта података

Основни концепт складишта података је да олакша компанији јединствену верзију истине за доношење одлука и предвиђање. Складиште података је информациони систем који садржи историјске и комутативне податке из једног или више извора. Концепти складишта података поједностављују поступак извештавања и анализе организација.

Карактеристике складишта података

Концепти складишта података имају следеће карактеристике:

  • Предметно оријентисан
  • Интегрисано
  • Временска варијанта
  • Нехлапљив

Предметно оријентисан

Складиште података је оријентисано на тему јер нуди информације у вези са темом уместо о текућем пословању компанија. Ови предмети могу бити продаја, маркетинг, дистрибуција итд.

Складиште података се никада не фокусира на текуће операције. Уместо тога, нагласак је ставио на моделирање и анализу података за доношење одлука . Такође пружа једноставан и концизан поглед на одређену тему изузимајући податке који нису корисни као подршка процесу доношења одлуке.

Интегрисано

У складишту података интеграција значи успостављање заједничке јединице мере за све сличне податке из различите базе података. Податке такође треба чувати у Датаварехоусе-у на заједнички и универзално прихватљив начин.

Складиште података је развијено интегрисањем података из различитих извора попут главног рачунара, релационих база података, равних датотека итд. Штавише, оно мора да одржи доследне конвенције именовања, формат и кодирање.

Ова интеграција помаже у ефикасној анализи података. Мора се осигурати доследност у конвенцијама именовања, мерама атрибута, структури кодирања итд. Размотрите следећи пример:

У горњем примеру постоје три различите апликације са ознакама А, Б и Ц. Подаци који се чувају у овим апликацијама су пол, датум и равнотежа. Међутим, подаци сваке апликације се чувају на другачији начин.

  • У апликацији Пол пол садржи логичке вредности попут М или Ф
  • У пољу примене Б полно поље је нумеричка вредност,
  • У апликацији Ц, полно поље похрањено у облику вредности знака.
  • Исти је случај са датумом и билансом

Међутим, након трансформације и чишћења сви ови подаци се чувају у заједничком формату у складишту података.

Временска варијанта

Временски хоризонт за складиште података је прилично опсежан у поређењу са оперативним системима. Подаци прикупљени у складишту података препознају се у одређеном периоду и нуде информације са историјске тачке гледишта. Садржи елемент времена, експлицитно или имплицитно.

Једно од таквих места где је разлика у времену приказа података Датаварехоусе-а у структури кључа записа. Сваки примарни кључ садржан у ДВ требао би имати имплицитно или експлицитно елемент времена. Као дан, недеља, месец итд.

Следећи аспект временске варијације је да када се подаци убаце у складиште, не могу се ажурирати или променити.

Нехлапљив

Складиште података је такође нестабилно, што значи да се претходни подаци не бришу када се у њега унесу нови подаци.

Подаци су само за читање и периодично се освежавају. Ово такође помаже анализирању историјских података и разумевању шта и када се догодило. Не захтева процес трансакција, опоравак и механизме контроле паралелности.

Активности попут брисања, ажурирања и уметања које се изводе у оперативном окружењу апликације изостављене су у окружењу складишта података. Само две врсте операција података изведених у Складирању података су

  1. Учитавање података
  2. Приступ подацима

Ево неколико главних разлика између апликације и складишта података

Оперативна апликација Складиште података
Сложени програм мора бити кодиран како би се осигурало да процеси надоградње података одржавају висок интегритет коначног производа. Ова врста проблема се не дешава јер се ажурирање података не врши.
Подаци се постављају у нормализованом облику како би се осигурала минимална сувишност. Подаци се не чувају у нормализованом облику.
Технологија потребна за подршку проблемима трансакција, опоравка података, враћања и решавања, јер је застој прилично сложен. Нуди релативну једноставност у технологији.

Архитектура складишта података

Архитектура складишта података сложена је јер је информациони систем који садржи историјске и комутативне податке из више извора. Постоје 3 приступа за изградњу слојева складишта података: једнослојни, двослојни и трослојни. Ова 3-слојна архитектура Дата Варехоусе-а објашњена је на следећи начин.

Једнослојна архитектура

Циљ једног слоја је смањити количину ускладиштених података. Циљ је уклонити вишак података. Ова архитектура се не користи често у пракси.

Двослојна архитектура

Двослојна архитектура је један од слојева складишта података који раздваја физички доступне изворе и складиште података. Ова архитектура се не може проширити, а такође не подржава велики број крајњих корисника. Такође има проблема са повезивањем због мрежних ограничења.

Архитектура складишта података у три нивоа

Ово је најчешће коришћена Архитектура складишта података.

Састоји се од горњег, средњег и доњег нивоа.

  1. Доњи ниво: База података сервера Датаварехоусе као доњи ниво. То је обично систем релационих база података. Подаци се чисте, трансформишу и учитавају у овај слој помоћу позадинских алата.
  2. Средњи ниво: Средњи ниво у складишту података је ОЛАП сервер који је имплементиран користећи РОЛАП или МОЛАП модел. За корисника, овај ниво апликације представља апстрактни приказ базе података. Овај слој такође делује као посредник између крајњег корисника и базе података.
  3. Врхунски ниво: Горњи ниво је фронт-енд слој клијента. Највиши ниво су алати и АПИ које повезујете и извлачите податке из складишта података. То могу бити алати за упите, алати за извештавање, алати за управљане упите, алати за анализу и алати за рударење подацима.

Компоненте складишта података

Научићемо о компонентама Датаварехоусе и архитектури складишта података са дијаграмом како је приказано у наставку:

Архитектура складишта података

Складиште података заснива се на РДБМС серверу који је централно спремиште информација које је окружено неким кључним компонентама складиштења података како би цело окружење било функционално, управљиво и приступачно.

Углавном постоји пет компоненти складишта података:

База података складишта података

Централна база података је основа окружења за складиштење података. Ова база података је примењена на РДБМС технологији. Иако је оваква примена ограничена чињеницом да је традиционални РДБМС систем оптимизован за трансакциону обраду базе података, а не за складиштење података. На пример, ад-хоц упити, спајања са више табела, агрегати захтевају ресурсе и успоравају перформансе.

Дакле, користе се алтернативни приступи бази података како су наведени у наставку -

  • У складишту података, релационе базе података распоређене су паралелно како би се омогућила скалабилност. Паралелне релационе базе података такође омогућавају заједничку меморију или заједнички модел ништа на различитим мултипроцесорским конфигурацијама или масовно паралелним процесорима.
  • Нове индексне структуре користе се за заобилажење скенирања релационих табела и побољшање брзине.
  • Коришћење вишедимензионалне базе података (МДДБ) за превазилажење свих ограничења која су постављена због релационих модела складишта података. Пример: Ессбасе из Орацле-а.

Алати за набавку, аквизицију, чишћење и трансформацију (ЕТЛ)

Алати за проналажење података, трансформацију и миграцију користе се за обављање свих конверзија, сажимања и свих промена потребних за претварање података у јединствени формат у складишту података. Такође се називају алаткама за издвајање, трансформацију и учитавање (ЕТЛ).

Њихова функционалност укључује:

  • Анонимизирајте податке у складу са регулаторним одредбама.
  • Елиминисање нежељених података из оперативних база података из учитавања у складиште података.
  • Претражите и замените уобичајена имена и дефиниције података који долазе из различитих извора.
  • Израчунавање сажетака и изведених података
  • У случају да недостају подаци, попуните их подразумеваним вредностима.
  • Поновљени подаци без дупликата који стижу из више извора података.

Ови алати за издвајање, трансформацију и учитавање могу генерирати црон послове, позадинске послове, програме Цобол, скрипте љуске итд. Који редовно ажурирају податке у складишту података. Ови алати су такође корисни за одржавање метаподатака.

Ови ЕТЛ алати морају се носити са изазовима базе података и хетерогености података.

Метаподаци

Назив Мета Дата сугерише неке технолошке концепте складиштења података на високом нивоу. Међутим, сасвим је једноставно. Метаподаци су подаци о подацима који дефинишу складиште података. Користи се за изградњу, одржавање и управљање складиштем података.

У архитектури складишта података, мета-подаци играју важну улогу јер одређују извор, употребу, вредности и карактеристике података складишта података. Такође дефинише како се подаци могу мењати и обрађивати. Уско је повезан са складиштем података.

На пример, ред у бази података о продаји може садржати:

4030 KJ732 299.90

Ово су бесмислени подаци док се не консултујемо са Мета која нам каже да јесте

  • Број модела: 4030
  • ИД агента продаје: КЈ732
  • Укупан износ продаје од 299,90 УСД

Стога су Мета подаци кључни састојци у трансформацији података у знање.

Метаподаци помажу у одговору на следећа питања

  • Које табеле, атрибуте и кључеве садржи складиште података?
  • Одакле подаци?
  • Колико се пута подаци поново учитавају?
  • Које трансформације су примењене код чишћења?

Метаподаци се могу класификовати у следеће категорије:

  1. Технички мета подаци : Ова врста метаподатака садржи информације о складишту које користе дизајнери и администратори складишта података.
  2. Пословни мета подаци: Ова врста метаподатака садржи детаље који крајњим корисницима пружају једноставан начин за разумевање информација ускладиштених у складишту података.

Куери Тоолс

Један од примарних циљева складиштења података је пружање информација предузећима за доношење стратешких одлука. Алати за упите омогућавају корисницима интеракцију са системом складишта података.

Ови алати спадају у четири различите категорије:

  1. Алати за упите и извештавање
  2. Алати за развој апликација
  3. Алати за рударење подацима
  4. ОЛАП алати

1. Алати за упите и извештавање:

Алати за упите и извештавање могу се даље поделити на

  • Алати за извештавање
  • Алати за управљане упите

Алати за извештавање:

Алати за извештавање могу се даље поделити на алате за извештавање о производњи и програм за писање извештаја са рачунара.

  1. Писци извештаја: Ова врста алата за извештавање су алати дизајнирани за крајње кориснике за њихову анализу.
  2. Извештавање о производњи: Ова врста алата омогућава организацијама да генеришу редовне оперативне извештаје. Такође подржава велике обимне послове попут штампања и израчунавања. Неки популарни алати за извештавање су Брио, Бусинесс Објецтс, Орацле, ПоверСофт, САС Институте.

Алати за управљане упите:

Ова врста приступних алата помаже крајњим корисницима да решавају проблеме у бази података и СКЛ-у и структури базе података уметањем мета-слоја између корисника и базе података.

2. Алати за развој апликација:

Понекад уграђени графички и аналитички алати не задовољавају аналитичке потребе организације. У таквим случајевима прилагођени извештаји се развијају помоћу алата за развој апликација.

3. Алати за рударење подацима:

Ископавање података је процес откривања значајних нових корелација, образаца и трендова ископавањем велике количине података. Алати за рударење података користе се да би се овај процес учинио аутоматским.

4. ОЛАП алати:

Ови алати се заснивају на концептима вишедимензионалне базе података. Омогућава корисницима да анализирају податке користећи сложене и сложене вишедимензионалне приказе.

Складиште података Архитектура аутобуса

Магацин података складишта података одређује проток података у вашем складишту. Ток података у складишту података може се категорисати као прилив, узлаз, одлив, одлив и мета ток.

Приликом дизајнирања сабирнице података, треба узети у обзир заједничке димензије и чињенице на свим подацима.

Дата Мартс

Дата март је приступни слој који се користи за допремање података до корисника. Представља се као опција за складиште података велике величине, јер је за изградњу потребно мање времена и новца. Међутим, не постоји стандардна дефиниција података који се разликују од особе до особе.

Једноставном речју Дата март је подружница складишта података. Дата март се користи за поделу података која се креира за одређену групу корисника.

Ознаке података могу се креирати у истој бази података као и база података или физички одвојена база података.

Најбоље праксе у архитектури складишта података

Да бисте дизајнирали Архитектуру складишта података, морате следити доле дате најбоље праксе:

  • Користите моделе складишта података који су оптимизовани за проналажење информација који могу бити димензионални, денормализовани или хибридни приступ.
  • Изаберите одговарајући приступ дизајнирању као приступ одозго надоле и одоздо према горе у Складишту података
  • Потребно је осигурати да се подаци обрађују брзо и тачно. У исто време, требало би да приступите приступу који обједињује податке у једну верзију истине.
  • Пажљиво осмислите поступак прикупљања и чишћења података за складиште података.
  • Дизајнирајте МетаДата архитектуру која омогућава дељење метаподатака између компонената Дата Варехоусе-а
  • Размислите о примени ОДС модела када је потреба за проналажењем информација при дну пирамиде апстракције података или када је потребно приступити више оперативних извора.
  • Треба осигурати да је модел података интегрисан, а не само консолидован. У том случају, требало би да узмете у обзир модел података 3НФ. Такође је идеалан за набавку ЕТЛ-а и алата за чишћење података

Резиме:

  • Складиште података је информациони систем који садржи историјске и комутативне податке из једног или више извора. Ови извори могу бити традиционално складиште података, складиште података у облаку или виртуелно складиште података.
  • Складиште података је оријентисано на предмет јер нуди информације о предмету уместо о текућем раду организације.
  • У Складишту података интеграција значи успостављање заједничке јединице мере за све сличне податке из различитих база података
  • Складиште података је такође нестабилно, што значи да се претходни подаци не бришу када се у њега унесу нови подаци.
  • Датаварехоусе је временска варијанта јер подаци у ДВ-у имају висок рок трајања.
  • Архитектура складишта података има углавном 5 компонената: 1) База података 2) ЕТЛ алати 3) Мета подаци 4) Алати за упите 5) ДатаМартс
  • Ово су четири главне категорије алата за упите 1. Упити и извештавање, алати 2. Алати за развој апликација, 3. Алати за рударење података 4. ОЛАП алати
  • Алати за проналажење података, трансформацију и миграцију користе се за обављање свих конверзија и сажимања.
  • У архитектури складишта података, мета-подаци играју важну улогу јер одређују извор, употребу, вредности и карактеристике података складишта података.