Шта је Р програмски језик? Увод & амп; Основе Р.

Преглед садржаја:

Anonim

Шта је Р софтвер?

Р је програмски језик и бесплатни софтвер који су развили Росс Ихака и Роберт Гентлеман 1993. године. Р поседује опсежни каталог статистичких и графичких метода. Укључује алгоритме машинског учења, линеарну регресију, временске серије, статистичке закључке да набројимо само неке. Већина Р библиотека је написана на Р, али за тешке рачунске задатке преферирају се Ц, Ц ++ и Фортран кодови.

Р не поверавају само академици, већ многе велике компаније такође користе програмски језик Р, укључујући Убер, Гоогле, Аирбнб, Фацебоок и тако даље.

Анализа података са Р врши се у низу корака; програмирање, трансформисање, откривање, моделирање и саопштавање резултата

  • Програм : Р је јасан и доступан алат за програмирање
  • Трансформ : Р се састоји од колекције библиотека дизајнираних посебно за науку о подацима
  • Откријте : Истражите податке, прочистите своју хипотезу и анализирајте их
  • Модел : Р нуди широк спектар алата за хватање правог модела за ваше податке
  • Комуницирајте : Интегришите кодове, графиконе и излазе у извештај помоћу Р Маркдовн-а или направите сјајне апликације за дељење са светом

У овом уводном упутству научићете Р.

  • За шта се користи Р?
  • Р по индустрији
  • Р пакет
  • Комуницирајте са Р.
  • Зашто користити Р?
  • Да ли бисте требали одабрати Р?
  • Да ли је Р тешко?

За шта се користи Р?

  • Статистички закључак
  • Анализа података
  • Алгоритам машинског учења

Р по индустрији

Ако рашчланимо употребу Р по индустрији, видимо да су академици на првом месту. Р је језик за статистику. Р је први избор у здравственој индустрији, а следе влада и консултантске услуге.

Р пакет

Примарна употреба Р је и увек ће бити, статистика, визуелизација и машинско учење. Слика испод приказује који Р пакет има највише питања у Стацк Оверфлов-у. У првих 10, већина њих је везана за ток рада научника за податке: припрема података и саопштавање резултата.

Све библиотеке Р, скоро 12к, чувају се у ЦРАН-у. ЦРАН је бесплатан и отворен изворни код. Бројне библиотеке можете преузети и користити за извођење машинског учења или анализе временских серија.

Комуницирајте са Р.

Р има више начина да представи и дели рад, било кроз документ о умањењу или сјајну апликацију. Све може бити хостовано у Рпуб-у, ГитХуб-у или на веб локацији предузећа.

Испод је пример презентације хостоване на Рпуб-у

Рстудио прихвата умањење за писање документа. Документе можете извести у различите формате:

  • Документ:
    • ХТМЛ
    • ПДФ / Латек
    • Ворд
  • Презентација
    • ХТМЛ
    • ПДФ беамер

Рстудио има одличан алат за једноставно креирање апликације. Испод је пример апликације са подацима Светске банке.

Зашто користити Р?

Наука о подацима обликује начин на који компаније воде свој посао. Без сумње, држање подаље од вештачке интелигенције и машина довешће до тога да компанија пропадне. Велико је питање који алат / језик треба да користите?

На тржишту је доступно пуно алата за обављање анализе података. Учење новог језика захтева одређено време. Слика испод приказује криву учења у поређењу са пословном способношћу коју језик нуди. Негативни однос подразумева да нема бесплатног ручка. Ако желите да пружите најбољи увид из података, онда треба да проведете неко време у учењу одговарајућег алата, а то је Р.

У горњем левом углу графикона можете видети Екцел и ПоверБИ. Ова два алата су једноставна за учење, али не нуде изванредне пословне способности, посебно у погледу моделирања. У средини можете видети Питхон и САС. САС је наменски алат за вођење статистичке анализе за пословање, али није бесплатан. САС је софтвер за клик и покретање. Пајтон је, међутим, језик са монотоном кривуљом учења. Питхон је фантастичан алат за примену машинског учења и уметне интелигенције, али му недостају комуникационе функције. Са идентичном кривом учења, Р представља добру компромису између примене и анализе података.

Што се тиче визуализације података (ДатаВиз), вероватно сте чули за Таблеау. Таблеау је, без сумње, одличан алат за откривање образаца путем графикона и графикона. Поред тога, учење Таблеау-а није дуготрајно. Један од великих проблема са визуализацијом података је да можда на крају никада не пронађете образац или једноставно направите мноштво бескорисних графикона. Таблеау је добар алат за брзу визуелизацију података или пословне интелигенције. Што се тиче статистике и алата за доношење одлука, Р је прикладнији.

Стацк Оверфлов је велика заједница за програмске језике. Ако имате проблем са кодирањем или требате да разумете модел, Стацк Оверфлов је ту да вам помогне. Током године, проценат приказа питања нагло се повећао за Р у поређењу са осталим језицима. Овај тренд је, наравно, у високој корелацији са нараслим добом науке о подацима, али одражава потражњу Р језика за науком о подацима.

У науци података постоје два алата која се међусобно надмећу. Р и Питхон су вероватно програмски језик који дефинише науку о подацима.

Да ли бисте требали одабрати Р?

Научник података може да користи два изврсна алата: Р и Питхон. Можда нећете имати времена да их научите обоје, посебно ако започнете да учите науку о подацима. Учење статистичког моделирања и алгоритмаје много важније од учења програмског језика. Програмски језик је алат за израчунавање и саопштавање вашег открића. Најважнији задатак у науци података је начин на који се бавите подацима: увоз, чишћење, припрема, инжењеринг карактеристика, избор карактеристика. Ово би требао бити ваш примарни фокус. Ако истовремено покушавате да научите Р и Питхон без солидне позадине статистике, то је једноставно глупо. Научник података нису програмери. Њихов посао је да разумеју податке, манипулишу њима и изложе најбољи приступ. Ако размишљате о томе који језик да научите, да видимо који језик је најприкладнији за вас.

Главна публика за науку о подацима је пословно професионално. У послу је једна велика импликација комуникација. Постоји много начина за комуникацију: извештај, веб апликација, контролна табла. Потребан вам је алат који све ово ради заједно.

Да ли је Р тешко?

Пре година, Р је било тешко савладати језик. Језик је био збуњујући и није био тако структуриран као други програмски алати. Да би превазишао ово главно питање, Хадлеи Вицкхам је развио колекцију пакета названу тидиверсе. Правило игре се променило у најбољем случају. Манипулација подацима постаје тривијална и интуитивна. Стварање графикона више није било тако тешко.

Најбољи алгоритми за машинско учење могу се применити са Р. Пакети попут Керас и ТенсорФлов омогућавају стварање врхунске технике машинског учења. Р такође има пакет за извођење Ксгбоост-а, једног од најбољих алгоритама за Каггле такмичење.

Р може комуницирати са другим језиком. На Р. је могуће назвати Питхон, Јава, Ц ++. Свет великих података такође је доступан Р. Можете и Р да повежете са различитим базама података попут Спарк или Хадооп.

Коначно, Р је еволуирао и дозволио операцију паралелизације да убрза рачунање. У ствари, Р је критикован због тога што истовремено користи само један ЦПУ. Паралелни пакет вам омогућава да извршавате задатке у различитим језгрима машине.

Резиме

Укратко, Р је одличан алат за истраживање и истраживање података. Разрађена анализа попут груписања, корелације и смањења података врши се са Р. Ово је најважнији део, без доброг инжењеринга карактеристика и модела, примена машинског учења неће дати значајне резултате.