Фактор у Р: Категоричка променљива & амп; Непрекидне променљиве

Преглед садржаја:

Anonim

Шта је фактор у Р?

Фактор у Р је променљива која се користи за категоризацију и чување података, имајући ограничен број различитих вредности. Похрањује податке као вектор целобројних вредности. Фактор у Р познат је и као категоричка променљива која као вредност чува вредности низа и целобројне податке. Фактор се највише користи у статистичком моделирању и истраживачкој анализи података са Р.

У скупу података можемо разликовати две врсте променљивих: категоријалне и континуиране .

  • У описној статистици за категоричке променљиве у Р, вредност је ограничена и обично се заснива на одређеној коначној групи. На пример, категоричка променљива у Р може бити држава, година, пол, занимање.
  • Континуирана променљива, међутим, може узимати било које вредности, од целобројних до децималних. На пример, можемо имати приход, цену акције, итд ...

Категоричке променљиве

Категоричке променљиве у Р чувају се у фактору. Проверимо доњи код да конвертујемо променљиву карактера у променљиву фактора у Р. Карактери нису подржани у алгоритму машинског учења и једини начин је претварање низа у цео број.

Синтакса

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Аргументи:

  • к : Вектор категоричких података у Р. Треба да буде низ или цео број, а не децимални.
  • Нивои : вектор могућих вредности које узима к. Овај аргумент није обавезан. Подразумевана вредност је јединствена листа ставки вектора к.
  • Ознаке : Додајте ознаку у к категоричке податке у Р. На пример, 1 може узети ознаку `мушки`, док 0, ознака` женски`.
  • наређено : Утврдите да ли треба да буду поредани нивои у категоричким подацима у Р.

Пример:

Створимо оквир података о факторима.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Излаз:

## [1] "character"## [1] "factor"

Важно је трансформисати низ у променљиву фактора у Р када извршавамо задатак машинског учења.

Категоријска променљива у Р може се поделити на номиналну категоријалну променљиву и редну категоричку променљиву .

Номинална категоричка променљива

Категоричка променљива има неколико вредности, али редослед није важан. На пример, мушко или женско. Категоријске променљиве у Р немају редослед.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Излаз:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Из фактора_боја не можемо утврдити ниједно редослед.

Редна категоричка променљива

Редне категоричке променљиве имају природни поредак. Можемо одредити редослед, од најнижег до највишег са редом = ТРУЕ и највишег до најнижег са ордер = ФАЛСЕ.

Пример:

Сажетак можемо користити за бројање вредности за сваку променљиву фактора у Р.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Излаз:

## [1] evening morning afternoon middaymidnight evening 

Пример:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Излаз:

## morning midday afternoon evening midnight## 1 1 1 2 1

Р је наредио ниво од „јутра“ до „поноћи“ како је наведено у загради нивоа.

Непрекидне променљиве

Непрекидне променљиве класе су подразумевана вредност у Р. Оне се чувају као нумеричке или целобројне. То можемо видети из скупа података у наставку. мтцарс је уграђени скуп података. Прикупља информације о различитим типовима аутомобила. Можемо га увести помоћу мтцарс-а и проверити класу променљиве мпг, миља по галону. Враћа нумеричку вредност, што указује на непрекидну променљиву.

dataset <- mtcarsclass(dataset$mpg)

Оутпут

## [1] "numeric"