Тестирање великих података
Тестирање великих података је поступак тестирања апликације за велике податке како би се осигурало да све функционалности апликације за велике податке раде како се очекује. Циљ тестирања великих података је осигурати да систем великих података ради несметано и без грешака, уз одржавање перформанси и сигурности.
Велики подаци су збирка великих скупова података који се не могу обрадити помоћу традиционалних рачунарских техника. Тестирање ових скупова података укључује различите алате, технике и оквире за обраду. Велики подаци се односе на стварање, чување, проналажење и анализу података који су изванредни у погледу обима, разноликости и брзине. Овде можете сазнати више о Биг Дата, Хадооп и МапРедуце
У овом упутству за тестирање великих података научићете-
- Шта је стратегија тестирања великих података?
- Како тестирати Хадооп апликације
- Испитивање архитектуре
- Тестирање перформанси
- Приступ тестирању перформанси
- Параметри за испитивање перформанси
- Потребно тестирање окружења
- Испитивање великих података вс. Традиционално тестирање базе података
- Алати који се користе у сценаријима великих података
- Изазови у испитивању великих података
Шта је стратегија тестирања великих података?
Тестирање апликације Биг Дата више је верификација обраде података, а не тестирање појединачних карактеристика софтверског производа. Када је реч о тестирању великих података, кључ су перформансе и функционално тестирање .
У стратегији тестирања великих података, КА инжењери верификују успешну обраду терабајта података користећи робни кластер и друге подржавајуће компоненте. Захтева висок ниво вештина тестирања, јер је обрада врло брза. Обрада може бити три врсте
Уз ово, квалитет података је такође важан фактор у Хадооп тестирању. Пре тестирања апликације потребно је проверити квалитет података и треба их сматрати делом тестирања базе података. Укључује проверу различитих карактеристика као што су усаглашеност, тачност, дуплирање, доследност, валидност, потпуност података итд. Следеће у овом упутству за тестирање Хадооп-а научићемо како да тестирамо Хадооп апликације.
Како тестирати Хадооп апликације
Следећа слика даје преглед фаза на високом нивоу у тестирању апликација за велике податке
Тестирање великих података или Хадооп тестирање могу се широко поделити у три корака
Корак 1: Провера степена података
Први корак у овом водичу за тестирање великих података назива се фаза пре Хадооп-а која укључује валидацију процеса.
- Подаци из различитих извора попут РДБМС-а, веб дневника, друштвених медија итд. Требају бити потврђени како би се осигурало да се тачни подаци увлаче у систем
- Поређење изворних података са подацима убаченим у систем Хадооп како би се осигурало да се подударају
- Проверите да ли су тачни подаци извучени и учитани на тачно ХДФС место
Алати попут Таленд-а , Датамеер-а могу се користити за валидацију етапних података
Корак 2: Провера ваљаности „МапРедуце“
Други корак је валидација „МапРедуце“. У овој фази, испитивач великих података проверава валидацију пословне логике на сваком чвору, а затим их валидира након покретања против више чворова, осигуравајући да
- Процес Мап Редуце исправно ради
- На подацима се примењују правила за агрегацију или сегрегацију података
- Генеришу се парови кључних вредности
- Провера података након поступка смањења мапе
Корак 3: Фаза валидације резултата
Последња или трећа фаза Хадооп тестирања је поступак валидације резултата. Датотеке излазних података се генеришу и спремне су за премештање у ЕДВ (Ентерприсе Дата Варехоусе) или било који други систем заснован на захтеву.
Активности у трећој фази укључују
- Да бисте проверили да ли се правилно примењују правила трансформације
- Да бисте проверили интегритет података и успешно учитавање података у циљни систем
- Да бисте проверили да не постоји оштећење података упоређивањем циљних података са подацима ХДФС система датотека
Испитивање архитектуре
Хадооп обрађује врло велике количине података и изузетно је интензиван у ресурсима. Стога су архитектонска испитивања пресудна како би се осигурао успех вашег пројекта великих података. Лоше или неправилно дизајниран систем може довести до погоршања перформанси и систем не може испунити захтев. Бар, перформанси и Фаиловер тест услуге треба да се уради у Хадооп окружењу.
Тестирање перформанси укључује испитивање времена завршетка посла, коришћења меморије, пропусности података и сличних системских показатеља. Иако је мотив услуге отказивања отказивања провера да се обрада података одвија без проблема у случају квара чворова података
Тестирање перформанси
Тестирање перформанси за велике податке укључује две главне акције
- Уношење података и током њих : У овој фази, испитивач великих података проверава како брзи систем може да троши податке из различитих извора података. Тестирање укључује идентификовање различите поруке коју ред може обрадити у датом временском оквиру. Такође укључује колико брзо се подаци могу убацити у основно складиште података, на пример брзина уметања у базу података Монго и Цассандра.
- Обрада података : Укључује верификацију брзине којом се извршавају упити или мапа. Такође укључује тестирање обраде података изоловано када је основно складиште података попуњено унутар скупова података. На пример, покретање Мап Редуце послова на основном ХДФС-у
- Учинак поткомпоненте : Ови системи се састоје од више компоненти и неопходно је тестирати сваку од ових компонената у изолацији. На пример, колико брзо се порука индексира и троши, послови МапРедуце, перформансе упита, претрага итд.
Приступ тестирању перформанси
Тестирање перформанси за апликацију великих података укључује испитивање огромних количина структурираних и неструктурираних података и захтева посебан приступ тестирању да би се тестирали тако масивни подаци.
Тестирање перформанси се извршава овим редоследом
- Процес започиње постављањем кластера великих података који ће се тестирати на перформансе
- Идентификујте и дизајнирајте одговарајућа оптерећења
- Припрема појединачних клијената (креирају се прилагођене скрипте)
- Извршити тест и анализирати резултат (ако циљеви нису испуњени, подесите компоненту и поново извршите)
- Оптимална конфигурација
Параметри за испитивање перформанси
Разни параметри који се верификују за испитивање перформанси су
- Похрана података: Како се подаци чувају у различитим чворовима
- Евиденције урезивања: Колика је дозвола раста дневника урезивања
- Истовремено: Колико нити може да изврши операцију писања и читања
- Кеширање: Подесите поставку кеш меморије „кеш реда“ и „кеш меморија кључева“.
- Временска ограничења: Вредности за временско ограничење везе, временско ограничење упита итд.
- ЈВМ параметри: величина гомиле, алгоритми ГЦ сакупљања итд.
- Мапа смањује перформансе: сортирање, спајање итд.
- Ред порука: Стопа поруке, величина итд.
Потребно тестирање окружења
Тест окружење мора зависити од врсте апликације коју тестирате. За тестирање софтвера за велике податке, тест окружење треба да обухвати
- Требало би да има довољно простора за складиштење и обраду велике количине података
- Требало би да има кластер са дистрибуираним чворовима и подацима
- Требало би да има минималну искоришћеност процесора и меморије да би одржао високе перформансе за тестирање перформанси великих података
Испитивање великих података вс. Традиционално тестирање базе података
Својства |
Традиционално тестирање базе података |
Тестирање великих података |
---|---|---|
Подаци |
|
|
Приступ тестирању |
|
|
Стратегија тестирања |
|
|
Инфраструктура |
|
|
Алати за проверу |
Тестер користи макрое на основу Екцел-а или алате за аутоматизацију засноване на корисничком интерфејсу |
Нема дефинисаних алата, опсег је широк, од програмских алата попут МапРедуце до ХИВЕКЛ |
Алати за тестирање |
Алати за тестирање могу се користити са основним оперативним знањем и мање обуке. |
Захтева одређени скуп вештина и обуке за руковање алатом за тестирање. Такође, алати су у почетној фази и временом ће можда доћи до нових карактеристика. |
Алати који се користе у сценаријима великих података
Кластер великих података |
Алати за велике податке |
---|---|
НоСКЛ: |
|
Карта смањити: |
|
Складиште: |
|
Сервери: |
|
Обрада |
|
Изазови у испитивању великих података
- Аутоматизација
Аутоматско тестирање великих података захтева некога ко има техничку стручност. Такође, аутоматизовани алати нису опремљени за решавање неочекиваних проблема који се појаве током тестирања
- Виртуелизација
То је једна од интегралних фаза испитивања. Латенција виртуелне машине ствара проблеме са временом у тестирању перформанси великих података у реалном времену. Гњаважа је и управљање сликама у великим подацима.
- Велики скуп података
- Треба да верификујете више података и то брже
- Потреба за аутоматизацијом напора за тестирање
- Треба да буде у могућности да тестира на различитим платформама
Изазови испитивања перформанси
- Разноврсни скуп технологија : Свака поткомпонента припада различитој технологији и захтева тестирање у изолацији
- Недоступност одређених алата : Ниједан алат не може да изврши тестирање од краја до краја. На пример, НоСКЛ можда неће одговарати редовима порука
- Тест Сцриптинг : Висок степен скриптирања потребан је за дизајнирање тест сценарија и тест случајева
- Тест окружење : Потребно је посебно тестно окружење због велике величине података
- Решење за надгледање : Постоје ограничена решења која могу надгледати цело окружење
- Дијагностичко решење : Потребно је развити прилагођено решење за разрађивање уских грла перформанси
Резиме
- Како инжењеринг података и аналитика података напредују на виши ниво, тестирање великих података је неизбежно.
- Обрада великих података може бити групна, у реалном времену или интерактивна
- 3 фазе тестирања апликација великих података су
- Валидација етапних података
- „МапРедуце“ валидација
- Фаза валидације излаза
- Архитектонско тестирање је важна фаза тестирања великих података, јер лоше дизајниран систем може довести до грешака без преседана и погоршања перформанси
- Тестирање перформанси за велике податке укључује верификацију
- Пропусност података
- Обрада података
- Учинак поткомпоненте
- Тестирање великих података разликује се од традиционалног тестирања података у погледу података, инфраструктуре и алата за валидацију
- Изазови тестирања великих података укључују виртуелизацију, аутоматизацију тестова и бављење великим скупом података. Испитивање перформанси апликација великих података је такође проблем.