Означавање проблема и скривени Марков модел

Преглед садржаја:

Anonim

Означавање реченица

Означавање реченице у ширем смислу односи се на додавање ознака глагола, именице итд. Контекстом реченице. Идентификација ПОС ознака је сложен процес. Стога генеричко означавање ПОС-а ручно није могуће, јер неке речи могу имати различита (двосмислена) значења у складу са структуром реченице. Конверзија текста у облику листе важан је корак пре означавања, јер се свака реч на листи петља и броји за одређену ознаку. Молимо погледајте доњи код да бисте га боље разумели

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

ИЗЛАЗ

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Објашњење кода

  1. Код за увоз нлтк (приручник за природни језик који садржи подмодуле као што су токенизе реченице и токенизе речи.)
  2. Текст чије се ознаке штампају.
  3. Токенизација реченице
  4. Примењена је петља Фор, где се речи означавају из реченице, а ознака сваке речи се штампа као излаз.

У Цорпус-у постоје две врсте ПОС означивача:

  • На основу правила
  • Стохастични ПОС означивачи

1. Ознака ПОС заснована на правилима : За речи које имају двосмислено значење примењује се приступ заснован на правилима на основу контекстуалних информација. То се постиже провером или анализом значења претходне или следеће речи. Информације се анализирају из окружења речи или из њега самог. Стога су речи означене граматичким правилима одређеног језика као што су велика и интерпункција. нпр. Бриллов таггер.

2. Стохастички ПОС тагер: Различити приступи попут фреквенције или вероватноће примењују се под овом методом. Ако је реч углавном означена одређеном ознаком у тренинг сету, тада се у тест реченици даје та одређена ознака. Ознака речи не зависи само од сопствене ознаке већ и од претходне ознаке. Ова метода није увек тачна. Други начин је израчунавање вероватноће појаве одређене ознаке у реченици. Тако се коначна ознака израчунава провером највеће вероватноће речи са одређеном ознаком.

Скривени Марков модел:

Проблеми са означавањем могу се моделирати и помоћу ХММ-а. Улазне токене третира као посматрану секвенцу, док се ознаке сматрају скривеним стањима, а циљ је одредити секвенцу скривеног стања. На пример, к = к 1 , к 2 ,…, к н где је к низ жетона, док је и = и 1 , и 2 , и 3 , и 4 … и н је скривени низ.

Како ради ХММ модел?

ХММ користи дистрибуцију придруживања која је П (к, и) где је к улазна секвенца / секвенца токена, а и је секвенца ознаке.

Редослед ознака за к биће аргмак и1 … .ин п (к1, к2,… .кн, и1, и2, и3,…). Категоризирали смо ознаке из текста, али статистика таквих ознака је од виталног значаја. Дакле, следећи део је бројање ових ознака за статистичке студије.