Најчешћа 62 питања за интервју са инжењером података & амп; Одговори

Anonim

Ево честих питања за интервју инжењера података како за свеже тако и за искусне кандидате да би добили прави посао.

1) Објасните инжењеринг података.

Инжењеринг података је термин који се користи у великим подацима. Фокусира се на примену прикупљања података и истраживања. Подаци генерисани из различитих извора су само сирови подаци. Инжењеринг података помаже у претварању ових сирових података у корисне информације.

2) Шта је моделирање података?

Моделовање података је метода документовања сложеног софтверског дизајна као дијаграма тако да свако може лако да га разуме. То је концептуални приказ објеката података који су повезани између различитих објеката података и правила.

3) Наведите разне врсте шема дизајна у моделовању података

У моделирању података постоје углавном две врсте шема: 1) шема звезда и 2) шема пахуљица.

4) Разликовати структуриране и неструктуриране податке

Следи разлика између структурираних и неструктурираних података:

Параметар Структурирани подаци Неструктурирани подаци
Складиште ДБМС Неуправљане структуре датотека
Стандард АДО.нет, ОДБЦ и СКЛ СТМП, КСМЛ, ЦСВ и СМС
Алат за интеграцију ЕЛТ (екстракт, трансформација, учитавање) Ручни унос података или групна обрада која укључује кодове
скалирање Скалирање шеме је тешко Скалирање је врло лако.

5) Објасните све компоненте Хадооп апликације

Следе компоненте компоненте Хадооп:

  • Хадооп Цоммон: То је уобичајени скуп услужних програма и библиотека које користи Хадооп.
  • ХДФС: Ова Хадооп апликација односи се на систем датотека у којем се чувају Хадооп подаци. То је дистрибуирани систем датотека који има велику пропусност.
  • Хадооп МапРедуце: Заснован је према алгоритму за обезбеђивање обраде података великих размера.
  • Хадооп ПРЕЂА: Користи се за управљање ресурсима унутар кластера Хадооп. Такође се може користити за планирање задатака за кориснике.

6) Шта је НамеНоде?

То је средишњи део ХДФС-а. Похрањује податке ХДФС-а и прати разне датотеке у кластерима. Овде се стварни подаци не чувају. Подаци се чувају у ДатаНодес.

7) Дефинисати Хадооп стреаминг

То је услужни програм који омогућава стварање мапе и смањује послове и подноси их одређеном кластеру.

8) Који је пуни облик ХДФС-а?

ХДФС је скраћеница од Хадооп Дистрибутед Филе Систем.

9) Дефинишите блок и блок скенер у ХДФС-у

Блокови су најмања јединица датотеке података. Хадооп аутоматски дели огромне датотеке на мале комаде.

Скенер блокова верификује листу блокова који су представљени на ДатаНоде.

10) Који су кораци до којих долази када Блоцк Сцаннер открије оштећени блок података?

Следе кораци који се дешавају када скенер блокова пронађе оштећени блок података:

1) Пре свега, када Блоцк Сцаннер пронађе оштећени блок података, ДатаНоде извештава НамеНоде

2) НамеНоде започиње поступак стварања нове реплике помоћу реплике оштећеног блока.

3) Број репликација исправних реплика покушава да се подудара са фактором репликације. Ако је пронађено подударање оштећени блок података неће бити избрисан.

11) Наведи две поруке које НамеНоде добија од ДатаНоде?

Постоје две поруке које НамеНоде добија од ДатаНоде. То су 1) Извештај о блокади и 2) Откуцаји срца.

12) Наведите разне КСМЛ датотеке за конфигурацију у Хадооп-у?

У Хадооп-у постоји пет КСМЛ датотека за конфигурацију:

  • Мапред-сите
  • Цоре-сите
  • ХДФС-сајт
  • Предиште

13) Која су четири В велика података?

Четири В велика података су:

  • Брзина
  • Разноврсност
  • Волуме
  • Вераити

14) Објасните карактеристике Хадооп-а

Важне карактеристике Хадоопа су:

  • То је оквир отвореног кода који је доступан бесплатно.
  • Хадооп је компатибилан са многим врстама хардвера и једноставан приступ новом хардверу унутар одређеног чвора.
  • Хадооп подржава бржу дистрибуцију обраде података.
  • Похрањује податке у кластер, који је неовисан од осталих операција.
  • Хадооп омогућава стварање 3 реплике за сваки блок са различитим чворовима.

15) Објасните главне методе редуктора

  • сетуп (): Користи се за конфигурисање параметара попут величине улазних података и дистрибуиране кеш меморије.
  • цлеануп (): Овај метод се користи за чишћење привремених датотека.
  • редуце (): То је срце редуктора које се позива једном по кључу са повезаним смањеним задатком

16) Која је скраћеница од ЦОСХХ?

Скраћеница ЦОСХХ је План класификације и оптимизације за хетерогене Хадооп системе.

17) Објасните шему звезда

Шема звезда или шема повезивања звезда је најједноставнији тип шеме складишта података. Позната је као шема звезда јер је по структури попут звезде. У шеми Звезда, центар звезде може имати једну табелу чињеница и више придружених табела димензија. Ова шема се користи за испитивање великих скупова података.

18) Како применити решење за велике податке?

Следите следеће кораке да бисте применили решење за велике податке.

1) Интегришите податке користећи изворе података као што су РДБМС, САП, МиСКЛ, Салесфорце

2) Похраните податке извучене у било коју НоСКЛ базу података или ХДФС.

3) Примените решење за велике податке користећи оквире за обраду као што су Пиг, Спарк и МапРедуце.

19) Објасните ФСЦК

Провера система датотека или ФСЦК је наредба коју користи ХДФС. Команда ФСЦК се користи за проверу недоследности и проблема у датотеци.

20) Објасните шему пахуљица

Шема пахуљица је продужетак звездане шеме и додаје додатне димензије. Такозвана је пахуљица јер њен дијаграм изгледа попут пахуљице. Табеле димензија су нормализоване, што податке дели у додатне табеле.

21) Разликујте шему звезда и пахуљица

Звезда СновФлаке Сцхема
Хијерархије димензија се чувају у табели димензија. Свака хијерархија се чува у засебним табелама.
Шансе за сувишност података су велике Шансе за сувишност података су мале.
Има врло једноставан ДБ дизајн Има сложен ДБ дизајн
Омогућите бржи начин обраде коцкица Обрада коцке је спора због сложеног спајања.

22) Објасните систем дистрибуираних датотека Хадооп

Хадооп ради са скалабилним дистрибуираним системима датотека као што су С3, ХФТП ФС, ФС и ХДФС. Дистрибуирани систем датотека Хадооп је направљен на Гоогле систему датотека. Овај систем датотека је дизајниран на начин да се лако може покретати на великом кластеру рачунарског система.

23) Објасните главне одговорности инжењера података

Инжењери података имају много одговорности. Они управљају изворним системом података. Инжењери података поједностављују сложену структуру података и спречавају редукцију података. Много пута пружају и ЕЛТ и трансформацију података.

24) Који је пуни облик ПРЕЂЕ?

Комплетна форма ИАРН-а је Још један преговарач о ресурсима.

25) Наведите разне режиме у Хадооп-у

Режими у Хадооп-у су 1) Самостални режим 2) Псеудо дистрибуирани режим 3) Потпуно дистрибуирани режим.

26) Како постићи сигурност у Хадоопу?

Извршите следеће кораке да бисте постигли сигурност у Хадооп-у:

1) Први корак је осигуравање канала за потврду идентитета клијента на серверу. Клијенту пружите временски печат.

2) У другом кораку, клијент користи примљени временски печат да затражи ТГС за услужну карту.

3) У последњем кораку, клијент користи услужну карту за самоаутентификацију на одређени сервер.

27) Шта је откуцај срца у Хадоопу?

У Хадооп-у, НамеНоде и ДатаНоде међусобно комуницирају. Откуцаји срца су сигнал који ДатаНоде редовно шаље НамеНодеу како би показао своје присуство.

28) Разликујте НАС и ДАС у Хадооп-у

НАС ДАС
Капацитет складишта је 10 9 до 10 12 бајта. Капацитет складишта је 10 9 бајта.
Трошкови управљања по ГБ су умерени. Трошкови управљања по ГБ су високи.
Преносите податке користећи Етхернет или ТЦП / ИП. Пренос података помоћу ИДЕ / СЦСИ

29) Наведите важна поља или језике које користи инжењер података

Ево неколико поља или језика које користи инжењер података:

  • Вероватноћа као и линеарна алгебра
  • Машинско учење
  • Анализа и регресија трендова
  • Хиве КЛ и СКЛ базе података

30) Шта су велики подаци?

Ради се о великој количини структурираних и неструктурираних података који се не могу лако обрадити традиционалним методама складиштења података. Инжењери података користе Хадооп за управљање великим подацима.

31) Шта је ФИФО заказивање?

То је алгоритам распореда послова Хадооп. У овом ФИФО распореду, извештач бира послове из радног реда, најстаријег посла.

32) Наведите подразумеване бројеве порта на којима се трагач задатака, НамеНоде и трацк трацк извршавају у Хадооп-у

Подразумевани бројеви порта на којима се трагач задатака, НамеНоде и трагач послова извршавају у Хадооп-у су следећи:

  • Трагач задатака ради на порту 50060
  • НамеНоде ради на порту 50070
  • Јоб Трацкер ради на порту 50030

33) Како онемогућити блок скенер на ХДФС чвору података

Да бисте онемогућили блокирање скенера на ХДФС чвору података, подесите дфс.датаноде.сцан.период.хоурс на 0.

34) Како дефинисати удаљеност између два чвора у Хадоопу?

Удаљеност је једнака збиру удаљености до најближих чворова. Метода гетДистанце () користи се за израчунавање удаљености између два чвора.

35) Зашто користити робни хардвер у Хадоопу?

До робног хардвера је лако доћи и приуштити га. То је систем који је компатибилан са Виндовс, МС-ДОС или Линук.

36) Дефинисати фактор репликације у ХДФС-у

Фактор репликације је укупан број реплика датотеке у систему.

37) Који се подаци чувају у НамеНоде?

Наменоде чува метаподатке за ХДФС као што су информације о блоковима и информације о простору имена.

38) Шта подразумевате под Рацк Аваренесс?

У кластеру Хаддоп, Наменоде користи Датаноде за побољшање мрежног промета док чита или записује било коју датотеку која је ближа оближњем носачу за захтев за читање или писање. Наменоде одржава ИД рацк-а сваког ДатаНоде-а да би добио информације о рацк-у. Овај концепт назива се Рацк Аваренесс у Хадооп-у.

39) Које су функције Сецондари НамеНоде?

Следе функције Сецондари НамеНоде:

  • ФсИмаге који чува копију датотеке ЕдитЛог и ФсИмаге.
  • Рушење НамеНоде: Ако се НамеНоде сруши, тада се ФсИмаге секундарног НамеНоде може користити за поновно стварање НамеНоде.
  • Цхецкпоинт: Секундарни НамеНоде га користи да би потврдио да подаци нису оштећени у ХДФС-у.
  • Ажурирање: Аутоматски ажурира датотеку ЕдитЛог и ФсИмаге. Помаже у одржавању ФсИмаге датотеке на Сецондари НамеНоде ажурираном.

40) Шта се дешава када НамеНоде падне, а корисник пошаље нови посао?

НамеНоде је једина тачка квара у Хадооп-у, тако да корисник не може послати нови посао, не може га извршити. Ако НамеНоде падне, посао може пропасти, јер овај корисник мора сачекати да се НамеНоде поново покрене пре покретања било ког посла.

41) Које су основне фазе редуктора у Хадоопу?

У Хадоопу постоје три основне фазе редуктора:

1. Насумично премештање: Овде Редуцер копира излаз из Маппера.

2. Сортирање: У сортирању, Хадооп сортира улаз на Редуктор користећи исти тастер.

3. Смањивање: У овој фази се излазне вредности повезане са кључем смањују како би се подаци објединили у коначни излаз.

42) Зашто Хадооп користи Цонтект објект?

Хадооп фрамеворк користи Цонтект објект са маппер класом да би комуницирао са преосталим системом. Цонтект објект добија детаље о конфигурацији система и посао у свом конструктору.

Објекат Цонтект користимо да бисмо прослеђивали информације у методама сетуп (), цлеануп () и мап (). Овај објекат чини виталне информације доступним током операција на мапи.

43) Дефинишите комбинацију у Хадооп-у

То је опциони корак између Мап анд Редуце. Комбинатор узима излаз из функције Мап, креира парове кључних вредности и предаје их Хадооп Редуцер-у. Задатак комбинатора је да резимира коначни резултат из Мапе у збирне записе са идентичним кључем.

44) Који је подразумевани фактор репликације доступан у ХДФС-у На шта указује?

Подразумевани фактор репликације доступан у ХДФС је три. Задани фактор репликације указује да ће постојати три реплике сваког податка.

45) Како то мислите Локација података у Хадооп-у?

У систему великих података величина података је огромна и зато нема смисла премештати податке преко мреже. Сада, Хадооп покушава да рачунарство приближи подацима. На тај начин подаци остају локални на ускладиштеној локацији.

46) Дефинисати балансирајућег у ХДФС-у

У ХДФС-у, уравнотеживач је административно средство које административно особље користи за поновно уравнотежење података преко ДатаНодес-а и премешта блокове из прекомерно искоришћених у недовољно искоришћене чворове.

47) Објасните безбедни режим у ХДФС-у

То је само за читање НамеНоде у кластеру. У почетку је НамеНоде у Сафемоде-у. Спречава писање у систем датотека у Сафемоде-у. Тренутно прикупља податке и статистику из свих ДатаНодес-а.

48) Који је значај дистрибуиране кеш меморије у Апацхе Хадооп-у?

Хадооп има корисну услужну функцију такозвану Дистрибуирану кеш меморију која побољшава перформансе послова кеширањем датотека које користе апликације. Апликација може одредити датотеку за кеш меморију помоћу ЈобЦонф конфигурације.

Хадооп фрамеворк чини копију ових датотека на чворовима који задатак треба извршити. То се ради пре почетка извршавања задатка. Дистрибуирана кеш меморија подржава дистрибуцију датотека само за читање, као и зипове и јар датотеке.

49) Шта је Метасторе у кошници?

У њему се чува шема, као и локација табеле кошница.

Табела кошница дефинише, мапирање и метаподатке који се чувају у Метасторе-у. Ово се може похранити у РДБМС који подржава ЈПОКС.

50) Шта подразумевају под СерДе у кошници?

СерДе је кратко име за Сериализер или Десериализер. У Хиве-у, СерДе омогућава читање података из табеле у одређено поље и писање у било који формат који желите.

51) Наведите компоненте доступне у моделу података Хиве

У моделу података Хиве постоје следеће компоненте:

  • Столови
  • Преграде
  • Канте

52) Објасните употребу кошнице у Хадооп екосистему.

Хиве пружа интерфејс за управљање подацима ускладиштеним у Хадооп еко-систему. Кошница се користи за мапирање и рад са ХБасе табелама. Упити за кошнице претварају се у послове МапРедуце како би се сакрила сложеност повезана са креирањем и извођењем послова МапРедуце.

53) Наведите различите сложене типове података / прикупљање које подржава Хиве

Хиве подржава следеће сложене типове података:

  • Мапа
  • Структура
  • Арраи
  • унија

54) Објасните како се .хиверц датотека у кошници користи?

У Хиве-у .хиверц је датотека за иницијализацију. Ова датотека се у почетку учитава када започнемо интерфејс командне линије (ЦЛИ) за Хиве. Почетне вредности параметара можемо поставити у .хиверц датотеци.

55) Да ли је могуће направити више табела у Хиве-у за једну датотеку података?

Да, можемо створити више шема табела за датотеку података. Шема штеди шему у Хиве Метасторе. На основу ове шеме, можемо да дођемо до различитих резултата из истих података.

56) Објасните различите примене СерДе-а доступне у Хиве-у

У Хиве-у су доступне многе имплементације СерДе-а. Такође можете да напишете сопствену прилагођену имплементацију СерДе-а. Следе неке познате имплементације СерДе:

  • ОпенЦСВСерде
  • РегекСерДе
  • ДелимитедЈСОНСерДе
  • БитеСтреамТипедСерДе

57) Наведи функције генерисања табеле доступне у Хиве-у

Следи листа функција генерисања табела:

  • Експлодирати (низ)
  • ЈСОН_тупле ()
  • Гомила()
  • Екплоде (мапа)

58) Шта је искривљени сто у кошници?

Нагнута табела је табела која чешће садржи вредности колона. У Хиве-у, када током креирања одредимо табелу као СКЕВЕД, искривљене вредности се записују у засебне датотеке, а преостале вредности иду у другу датотеку.

59) Излистајте објекте креиране наредбом цреате у МиСКЛ.

Објекти створени наредбом цреате у МиСКЛ су следећи:

  • База података
  • Индекс
  • Сто
  • Корисник
  • Процедура
  • Окидач
  • Догађај
  • Поглед
  • Функција

60) Како се види структура базе података у МиСКЛ-у?

Да бисте видели структуру базе података у МиСКЛ-у, можете да користите

Наредба ДЕСЦРИБЕ. Синтакса ове наредбе је ДЕСЦРИБЕ Назив табеле ;.

61) Како тражити одређени низ у колони табеле МиСКЛ?

Користите оператор регуларног израза за претрагу низа у колони МиСКЛ. Овде такође можемо да дефинишемо различите типове регуларног израза и претрагу за коришћењем регуларног израза.

62) Објасните како аналитика података и велики подаци могу повећати приход компаније?

Следе начини на које аналитика података и велики подаци могу повећати приход компаније:

  • Ефикасно користите податке да бисте осигурали раст пословања.
  • Повећајте вредност купца.
  • Претварање аналитичког за побољшање прогноза броја запослених.
  • Смањивање производних трошкова организација.