Учење без надзора
Учење без надзора је техника машинског учења у којој корисници не морају да надгледају модел. Уместо тога, омогућава моделу да самостално ради на откривању образаца и информација које раније нису биле откривене. Углавном се бави необележеним подацима.
Алгоритми учења без надзора
Алгоритми учења без надзора омогућавају корисницима да обављају сложеније задатке обраде у односу на учење под надзором. Иако учење без надзора може бити непредвидљивије у поређењу са другим природним методама учења. Алгоритми учења без надзора укључују груписање, откривање аномалија, неуронске мреже итд.
У овом упутству ћете научити:
- Пример машинског учења без надзора
- Зашто учење без надзора?
- Врсте учења без надзора
- Груписање
- Врсте кластера
- Удружење
- Надзирано против ненадзираног машинског учења
- Примене машинског учења без надзора
- Недостаци учења без надзора
Пример машинског учења без надзора
Узмимо случај бебе и њеног породичног пса.
Она зна и идентификује овог пса. Неколико недеља касније породични пријатељ доводи пса и покушава да се игра са бебом.
Беба није раније видела овог пса. Али препознаје многе особине (2 уши, очи, ходање на 4 ноге) попут њеног кућног љубимца. Она идентификује нову животињу као пса. Ово је учење без надзора, где вас не уче, али учите на основу података (у овом случају података о псу.) Да је ово било под надзором, породични пријатељ рекао би беби да је то пас.
Зашто учење без надзора?
Ево главних разлога за коришћење учења без надзора:
- Машинско учење без надзора проналази све врсте непознатих образаца у подацима.
- Методе без надзора помажу вам да пронађете функције које могу бити корисне за категоризацију.
- Одржава се у реалном времену, тако да се сви улазни подаци анализирају и означавају у присуству ученика.
- Лакше је добити необележене податке са рачунара него етикетиране податке који захтевају ручну интервенцију.
Врсте учења без надзора
Проблеми учења без надзора подељени су даље у проблеме кластера и удруживања.
Груписање
Груписање је важан концепт када је у питању учење без надзора. Углавном се бави проналажењем структуре или обрасца у збирци некатегорисаних података. Алгоритми кластеровања обрадиће ваше податке и пронаћи природне кластере (групе) ако они постоје у подацима. Такође можете да измените колико кластера ваши алгоритми треба да идентификују. Омогућава вам подешавање грануларности ових група.
Постоје различите врсте кластера које можете користити:
Ексклузивно (партиционирање)
У овом начину груписања, подаци су груписани на такав начин да један податак може припадати само једном кластеру.
Пример: К-значи
Агломеративан
У овој техници кластерисања, сваки податак је кластер. Итеративни синдикати између два најближа кластера смањују број кластера.
Пример: Хијерархијско груписање
Преклапање
У овој техници се нејасни скупови користе за груписање података. Свака тачка може припадати два или више кластера са одвојеним степеном чланства.
Овде ће подаци бити повезани са одговарајућом вредношћу чланства. Пример: Нејасна Ц-средства
Пробабилистиц
Ова техника користи расподелу вероватноће за стварање кластера
Пример: Праћење кључних речи
- „мушка ципела“.
- „женска ципела“.
- „женска рукавица“.
- „мушка рукавица“.
могу се сврстати у две категорије „ципела“ и „рукавица“ или „мушкарац“ и „жене“.
Врсте кластера
- Хијерархијско груписање
- К-значи груписање
- К-НН (к најближих суседа)
- Главни анализа компоненти
- Декомпозиција сингуларне вредности
- Независна анализа компонената
Хијерархијско груписање:
Хијерархијско кластерисање је алгоритам који гради хијерархију кластера. Почиње са свим подацима који су додељени њиховом кластеру. Овде ће два блиска кластера бити у истом кластеру. Овај алгоритам се завршава када остане само један кластер.
К-значи груписање
К значи да је то итеративни алгоритам кластеровања који вам помаже да пронађете највећу вредност за сваку итерацију. У почетку се бира жељени број кластера. У овом методу кластерисања, морате груписати тачке података у к групе. Већи к на исти начин значи мање групе са више грануларности. Нижи к означава веће групе са мање грануларности.
Резултат алгоритма је група „ознака“. Тачку података додељује једној од к група. У к-средњем кластерисању, свака група је дефинисана стварањем центроида за сваку групу. Центроиди су попут срца јата, које снима тачке које су им најближе и додаје их у јато.
К-средње груписање даље дефинише две подгрупе:
- Агломеративно груписање
- Дендрограм
Агломеративно груписање:
Ова врста К-значи кластерирање започиње са фиксним бројем кластера. Све податке распоређује у тачан број кластера. Ова метода кластерисања не захтева број кластера К као улаз. Процес агломерације започиње формирањем сваког податка као једног кластера.
Ова метода користи неку меру удаљености, смањује број кластера (по један у свакој итерацији) спајањем процеса. На крају, имамо један велики кластер који садржи све објекте.
Дендрограм:
У методи кластерисања Дендрограма, сваки ниво ће представљати могући кластер. Висина дендрограма показује ниво сличности између два кластера. Што су ближе дну процеса, они су сличнији кластеру, што је налаз групе из дендрограма који није природан и углавном субјективан.
К- Најближе комшије
К- најближи сусед је најједноставнији од свих класификатора машинског учења. Разликује се од осталих техника машинског учења по томе што не даје модел. То је једноставан алгоритам који чува све доступне случајеве и класификује нове инстанце на основу мере сличности.
Веома добро функционише када постоји раздаљина између примера. Брзина учења је спора када је сет тренинга велик, а прорачун удаљености није тривијалан.
Анализа главних компонената:
У случају да желите простор веће димензије. Треба одабрати основу за тај простор и само 200 најважнијих оцена те основе. Ова база је позната као главна компонента. Подскуп који одаберете чине нови простор који је мале величине у поређењу са оригиналним простором. Одржава што је могуће сложеније податке.
Удружење
Правила придруживања омогућавају вам успостављање повезивања међу објектима података у великим базама података. Ова техника без надзора односи се на откривање занимљивих веза између променљивих у великим базама података. На пример, људи који купују нови дом највероватније купују нови намештај.
Остали примери:
- Подгрупа пацијената са раком груписана према мерењима њихове експресије гена
- Групе купаца на основу историје прегледања и куповине
- Филмска група према оцени коју су дали гледаоци филмова
Надзирано против ненадзираног машинског учења
Параметри | Надгледана техника машинског учења | Техника машинског учења без надзора |
Унос података | Алгоритми се обучавају користећи означене податке. | Алгоритми се користе против података који нису означени |
Рачунарска сложеност | Учење под надзором је једноставнија метода. | Учење без надзора је рачунски сложено |
Тачност | Изузетно тачан и поуздан метод. | Мање тачна и поуздана метода. |
Примене машинског учења без надзора
Неке примене техника машинског учења без надзора су:
- Груписање аутоматски подешава скуп података у групе на основу њихових сличности
- Откривање аномалија може открити необичне тачке података у вашем скупу података. Корисно је за проналажење лажних трансакција
- Удруживање открива скупове ставки који се често јављају заједно у вашем скупу података
- Латентни променљиви модели се широко користе за претпрераду података. Као што је смањење броја карактеристика у скупу података или разлагање скупа података на више компоненти
Недостаци учења без надзора
- Не можете добити прецизне информације у вези са сортирањем података, а излаз као подаци који се користе у ненадгледаном учењу означен је и непознат
- Мања тачност резултата је зато што улазни подаци нису познати и људи их унапред не обележавају. То значи да машина захтева да то уради сама.
- Спектралне класе не одговарају увек информативним класама.
- Корисник треба да потроши време тумачећи и означавајући класе које следе ту класификацију.
- Спектрална својства класа такође се могу променити током времена тако да не можете имати исте информације о класи док се пребацујете са једне слике на другу.
Резиме
- Учење без надзора је техника машинског учења, где не треба да надгледате модел.
- Машинско учење без надзора помаже вам да пронађете све врсте непознатих образаца у подацима.
- Груписање и удруживање су две врсте учења без надзора.
- Четири врсте метода кластерисања су 1) Ексклузивне 2) Агломеративне 3) Преклапајуће 4) Пробабилистичке.
- Важни типови кластерисања су: 1) Хијерархијско кластерисање 2) К-значи кластерисање 3) К-НН 4) Анализа главне компоненте 5) Декомпозиција сингуларне вредности 6) Независна анализа компонената.
- Правила придруживања омогућавају вам успостављање повезивања међу објектима података у великим базама података.
- У учењу под надзором, алгоритми се обучавају користећи означене податке, док се у учењу без надзора алгоритми користе против података који нису означени.
- Откривање аномалија може открити важне тачке података у вашем скупу података, што је корисно за проналажење лажних трансакција.
- Највећи недостатак учења без надзора је тај што не можете добити прецизне информације у вези са сортирањем података.