Топ 50 питања и одговори за интервју за науку о подацима

Anonim

Следе често постављана питања на разговорима за посао како за свеже особе, тако и за искусне Дата Сциентист-е.

1. Шта је наука о подацима?

Дата Сциенце је комбинација алгоритама, алата и технике машинског учења која вам помаже да пронађете заједничке скривене обрасце из даних сирових података.

2. Шта је логистичка регресија у науци података?

Логистичка регресија се такође назива логит моделом. То је метода за предвиђање бинарног исхода из линеарне комбинације предикторских променљивих.

3. Наведи три врсте пристрасности које се могу јавити током узорковања

У процесу узорковања постоје три врсте пристрасности, а то су:

  • Пристрасност избора
  • Под пристрасношћу покривености
  • Предрасуде према преживљавању

4. Разговарајте о алгоритму стабла одлучивања

Стабло одлука је популаран надгледани алгоритам машинског учења. Углавном се користи за регресију и класификацију. Омогућава рашчлањивање скупа података на мање подскупове. Стабло одлука може да обрађује и категоричке и нумеричке податке.

5. Шта је приоритетна вероватноћа и вероватноћа?

Претходна вероватноћа је удео зависне променљиве у скупу података, док је вероватноћа вероватноћа класификовања датог посматрача у присуству неке друге променљиве.

6. Објасните системе препоручивача?

То је подкласа техника филтрирања информација. Помаже вам да предвидите преференције или оцене које ће корисници вероватно дати производу.

7. Наведи три недостатка употребе линеарног модела

Три недостатка линеарног модела су:

  • Претпоставка линеарности грешака.
  • Не можете користити овај модел за бинарне процене или рачунати исходе
  • Много је проблема са прекомерном опремом које она не може да реши

8. Зашто треба да извршите поновно узорковање?

Поновно узорковање се врши у испод датим случајевима:

  • Процена тачности статистичких података узорка цртањем насумично уз замену из скупа тачака података или коришћењем као подскупови доступних података
  • Замена налепница на тачкама података приликом извођења неопходних тестова
  • Провера ваљаности модела помоћу случајних подскупова

9. Наведите библиотеке у Питхону које се користе за анализу података и научна израчунавања.

  • СциПи
  • Панде
  • Матплотлиб
  • НумПи
  • СциКит
  • Сеаборн

10. Шта је анализа снаге?

Анализа снаге је саставни део експерименталног дизајна. Помаже вам да одредите величину узорка која је потребна да бисте сазнали ефекат дате величине из узрока са одређеним нивоом сигурности. Такође вам омогућава да примените одређену вероватноћу у ограничењу величине узорка.

11. Објасните филтрирање у сарадњи

Сарадничко филтрирање које се користи за тражење исправних образаца сарадњом гледишта, више извора података и различитих агената.

12. Шта је пристрасност?

Предрасуда је грешка која је у ваш модел уведена због превише поједностављења алгоритма за машинско учење. „То може довести до недостатка опреме.

13. Дискутовати о „наивном“ у наивном Баиесовом алгоритму?

Модел наивног Баиес-овог алгоритма заснован је на Баиес-овој теореми. Описује вероватноћу догађаја. Заснован је на претходном познавању услова који би могли бити повезани са тим одређеним догађајем.

14. Шта је линеарна регресија?

Линеарна регресија је метода статистичког програмирања где се резултат променљиве „А“ предвиђа на основу резултата друге променљиве „Б“. Б се назива предикторском променљивом, а А као променљивом критеријума.

15. Наведи разлику између очекиване и средње вредности

Нису много разлике, али оба ова појма се користе у различитим контекстима. На средњу вредност се обично говори када разговарате о расподели вероватноће, док се на очекивану вредност говори у контексту случајне променљиве.

16. Који је циљ спровођења А / Б тестирања?

АБ тестирање које се користи за извођење случајних експеримената са две променљиве, А и Б. Циљ ове методе испитивања је да се открију промене на веб страници како би се максимизирао или повећао исход стратегије.

17. Шта је учење у ансамблу?

Ансамбл је метода комбиновања различитих група ученика како би се импровизовало на стабилности и предиктивној снази модела. Две врсте метода учења у ансамблу су:

Баггинг

Метода врећица вам помаже да примените сличне ученике на малим узорцима популација. Помаже вам у ближим предвиђањима.

Појачавање

Појачавање је итеративна метода која вам омогућава да прилагодите тежину посматрања у зависности од последње класификације. Појачавање смањује грешку пристрасности и помаже вам да изградите јаке предиктивне моделе.

18. Објасните сопствену вредност и својствени вектор

Властити вектори служе за разумевање линеарних трансформација. Научник података треба да израчуна сопствене векторе за коваријантну матрицу или корелацију. Својствене вредности су правци уз коришћење специфичних линеарних трансформационих радњи сабијањем, превртањем или истезањем.

19. Дефинисати појам унакрсне провере

Унакрсна валидација је техника валидације за процену како ће се резултати статистичке анализе генерализовати за независни скуп података. Ова метода се користи у позадини у којој се предвиђа циљ и треба проценити колико ће тачно модел постићи.

20. Објасните кораке за пројекат Аналитике података

Следе важни кораци укључени у пројекат аналитике:

  • Разумевање пословног проблема
  • Истражите податке и пажљиво их проучите.
  • Припремите податке за моделирање проналажењем вредности које недостају и трансформисањем променљивих.
  • Почните да покрећете модел и анализирате резултат великих података.
  • Потврдите модел новим скупом података.
  • Примените модел и пратите резултат да бисте анализирали перформансе модела за одређени период.

21. Разговарајте о вештачким неуронским мрежама

Вештачке неуронске мреже (АНН) су посебан скуп алгоритама који су револуционисали машинско учење. Помаже вам да се прилагодите у складу са променом уноса. Тако мрежа генерише најбољи могући резултат без редизајнирања излазних критеријума.

22. Шта је уназадно размножавање?

Уназадње ширење је суштина тренинга неуронске мреже. То је метод подешавања тежина неуронске мреже који зависе од стопе грешака добијених у претходној епохи. Правилно подешавање помагала помаже вам да смањите стопе грешака и учините модел поузданим повећавањем његове генерализације.

23. Шта је случајна шума?

Случајна шума је метода машинског учења која вам помаже да обавите све врсте задатака регресије и класификације. Такође се користи за лечење вредности које недостају и вредности веће вредности.

24. Каква је важност пристрасности према селекцији?

Предрасуде у избору се јављају када није постигнута одређена насумична одабирања приликом одабира појединаца или група или података који ће се анализирати. Сугерише да дати узорак не представља тачно популацију којој је намеравана анализа.

25. Шта је метода груписања К-значи?

Кластер К-средстава је важан метод учења без надзора. То је техника класификације података помоћу одређеног скупа кластера која се назива К кластери. Примењен је за груписање како би се утврдила сличност података.

26. Објасните разлику између науке о подацима и анализе података

Научници података морају да разрежу податке како би извукли драгоцене увиде које аналитичар података може применити на стварне пословне сценарије. Главна разлика између њих две је у томе што научници за податке имају више техничког знања од пословног аналитичара. Штавише, није им потребно разумевање посла потребног за визуелизацију података.

27. Објасните вредност п?

Када спроводите тест хипотезе у статистици, п-вредност вам омогућава да одредите снагу својих резултата. То је нумерички број између 0 и 1. На основу вредности помоћи ће вам да означите снагу одређеног резултата.

28. Дефинишите појам дубоког учења

Дубоко учење је подврста машинског учења. Бави се алгоритмима инспирисаним структуром која се назива вештачке неуронске мреже (АНН).

29. Објасните метод за прикупљање и анализу података помоћу друштвених медија за предвиђање временских услова.

Податке о друштвеним медијима можете сакупљати користећи Фацебоок, Твиттер, Инстаграм-ове АПИ-је. На пример, за високотонац можемо да конструишемо карактеристику из сваког твита, као што су датум на твитовима, ретвитови, листа пратилаца итд. Тада можете да користите модел мултиваријантних временских серија за предвиђање временских услова.

30. Када треба да ажурирате алгоритам у науци о подацима?

Морате да ажурирате алгоритам у следећој ситуацији:

  • Желите да се ваш модел података развија као токови података користећи инфраструктуру
  • Извор података се мења

    Ако је то нестационарност

31. Шта је нормална дистрибуција

Нормална расподела је скуп континуиране променљиве која се шири преко нормалне криве или у облику звонасте криве. Можете га сматрати континуираном расподелом вероватноће која је корисна у статистици. Корисно је анализирати променљиве и њихове односе када користимо нормалну криву расподеле.

32. Који језик је најбољи за аналитику текста? Р или Питхон?

Питхон ће бити погоднији за аналитику текста јер се састоји од богате библиотеке познате као панде. Омогућава вам употребу алата за анализу података и структура података на високом нивоу, док Р не нуди ову функцију.

33. Објасните предности коришћења статистике научника података

Статистика помаже научнику података да стекне бољу представу о очекивањима купца. Коришћењем статистичке методе Научници података могу добити знање о интересовању потрошача, понашању, ангажовању, задржавању итд. Такође вам помаже да изградите моћне моделе података за потврђивање одређених закључака и предвиђања.

34. Наведи различите типове оквира за дубоко учење

  • Питорцх
  • Мицрософт когнитивни алат
  • ТенсорФлов
  • Цаффе
  • Цхаинер
  • Керас

35. Објасните аутоматско кодирање

Аутоенкодери су мреже за учење. Помаже вам да трансформишете улазе у излазе са мањим бројем грешака. То значи да ћете добити излаз што је могуће ближе улазу.

36. Дефинисати Болтзманн машину

Болтзманн машине су једноставан алгоритам учења. Помаже вам да откријете оне карактеристике које представљају сложене правилности у подацима о обуци. Овај алгоритам вам омогућава да оптимизујете тежине и количину за дати проблем.

37. Објасните зашто је чишћење података неопходно и који метод користите за одржавање чистих података

Прљави подаци често доводе до погрешних података, што може оштетити перспективу било које организације. На пример, ако желите да водите циљану маркетиншку кампању. Међутим, наши подаци вам погрешно говоре да ће одређени производ бити тражен код ваше циљне публике; кампања ће пропасти.

38. Шта је искривљена дистрибуција и једнолична дистрибуција?

До искривљене дистрибуције долази када су подаци дистрибуирани на било којој страни графикона, док је идентична дистрибуција идентификована када су подаци раширени једнаки у опсегу.

39. Када се у статичном моделу јавља недовољно опремање?

Недовољно прилагођавање се јавља када статистички модел или алгоритам машинског учења нису у стању да ухвате основни тренд података.

40. Шта је учење ојачавањем?

Појачано учење је механизам учења о томе како мапирати ситуације у акције. Крајњи резултат би вам требао помоћи да повећате бинарни сигнал награде. У овој методи, ученику се не говори коју акцију треба предузети, већ мора открити која акција нуди максималну награду. Као што је овај метод заснован на механизму награде / казне.

41. Именујте најчешће коришћене алгоритме.

Четири најчешће коришћена алгоритма научника за податке су:

  • Линеарна регресија
  • Логистичка регресија
  • Рандом Форест
  • КНН

42. Шта је прецизност?

Прецизност је најчешће коришћена метрика грешака је н механизам класификације. Његов опсег је од 0 до 1, где 1 представља 100%

43. Шта је униваријантна анализа?

Анализа која се истовремено примењује ни на један атрибут је позната као униваријантна анализа. Бокплот се широко користи, униваријантни модел.

44. Како превазилазите изазове са својим налазима?

Да би се превазишли изазови мог проналаска, потребно је подстаћи дискусију, демонстрирати лидерство и поштујући различите опције.

45. Објасните технику узорковања кластера у науци података

Метода кластер узорковања користи се када је изазов проучавања ширења циљне популације, а једноставно случајно узорковање не може се применити.

46. ​​Наведите разлику између скупа за проверу и теста

Сет за валидацију углавном се сматра делом сета за обуку јер се користи за одабир параметара који вам помаже да избегнете прекомерно прилагођавање модела који се гради.

Док се тест сет користи за тестирање или процену перформанси обученог модела машинског учења.

47. Објасните појам Биномна формула вероватноће?

„Биномна расподела садржи вероватноће сваког могућег успеха на Н испитивања за независне догађаје који имају вероватноћу да се појаве π.“

48. Шта је опозив?

Опозив је однос стварне позитивне стопе према стварној позитивној стопи. Она се креће од 0 до 1.

49. Разговарајте о нормалној дистрибуцији

Нормална дистрибуција једнако распоређена као таква средња вредност, средња вредност и модус су једнаки.

50. Како радите на скупу података, како можете да одаберете важне променљиве? Објасните

Можете користити следеће методе избора променљивих:

  • Уклоните корелиране променљиве пре него што одаберете важне променљиве
  • Користите линеарну регресију и изаберите променљиве које зависе од те вредности п.
  • Користите избор уназад, унапред и корак по корак
  • Користите Ксгбоост, Рандом Форест и зацртајте графикон променљиве важности.
  • Измерите добитак информација за дати скуп карактеристика и у складу с тим одаберите првих н карактеристика.

51. Да ли је могуће ухватити корелацију између континуиране и категоричке променљиве?

Да, можемо користити анализу технике коваријанце да бисмо ухватили везу између континуираних и категоријалних променљивих.

52. Третирање категоричке променљиве као континуиране променљиве резултирало би бољим моделом предвиђања?

Да, категоричку вредност треба сматрати континуираном променљивом само када је променљива редне природе. Дакле, то је бољи предиктивни модел.