ПОС таговање са НЛТК и сечење у НЛП (ПРИМЕРИ)

Преглед садржаја:

Anonim

ПОС таговање

ПОС означавање (означавање делова говора) је поступак означавања речи у текстуалном формату за одређени део говора на основу његове дефиниције и контекста. Одговорно је за читање текста на језику и додељивање одређеног знака (делова говора) свакој речи. Такође се назива и граматичко означавање.

Научимо на примеру НЛТК дела говора:

Улаз: Све што нам дозвољава.

Излаз : [('Све', НН), ('до', ТО), ('дозвола', ВБ), ('ми', ПРП)]

Кораци укључени у пример означавања ПОС-ом:

  • Токенизирање текста (ворд_токенизе)
  • применити пос_таг на горњи корак који је нлтк.пос_таг (токенизе_тект)

Примери НЛТК ПОС тагова су следећи:

Скраћеница Значење
ЦЦ Везници
ЦД кардинална цифра
ДТ одредник
ПР егзистенцијални тамо
ФВ страна реч
ИН предлог / подређени везник
ЈЈ Ова НЛТК ПОС ознака је придев (велики)
ЈЈР придев, упоредни (већи)
ЈЈС придев, суперлатив (највећи)
ЛС листа тржишта
доктор медицине модални (могао, хоће)
НН именица, једнина (мачка, дрво)
ННС именица множина (столови)
ННП властита именица, једнина (сарах)
ННПС властита именица, множина (индианс ор америцанс)
ПДТ предетерминер (сви, оба, пола)
ПОС присвојни завршетак (родитељ)
ПРП лична заменица (њена, она сама, он, он сам)
ПРП $ присвојна заменица (хер, хис, ми, ми, оур)
РБ прилог (повремено, брзо)
РБР прилог, упоредни (већи)
РБС прилог, суперлатив (највећи)
РП честица (око)
ДО бесконачни маркер (до)
УХ интерјекција (збогом)
ВБ глагол (питати)
ВБГ глагол герунд (суђење)
ВБД глагол прошло време (молба)
ВБН глаголски прилог прошли (уједињени)
ВБП глагол, презент не 3. лице једнине (омот)
ВБЗ глагол, садашње време са 3. лицем једнине (основе)
ВДТ вх-детерминатор (оно, шта)
ВП заменица (ко)
ВРБ вх- прилог (како)

Горња листа НЛТК ПОС ознака садржи све НЛТК ПОС ознаке. Ознака НЛТК ПОС користи се за додељивање граматичких података сваке речи реченице. Инсталирање, увоз и преузимање свих пакета ПОС НЛТК је завршено.

Шта је цхункинг у НЛП-у?

Подешавање НЛП-а је процес за узимање малих информација и њихово груписање у велике јединице. Примарна употреба Цхункинг-а је стварање група „именичких фраза“. Користи се за додавање структуре реченици праћењем ПОС означавања у комбинацији са регуларним изразима. Добијена група речи назива се „комади“. Такође се назива плитко рашчлањивање.

У плитком рашчлањивању постоји највише један ниво између корена и лишћа, док се дубоко рашчлањивање састоји од више од једног нивоа. Плитко рашчлањивање назива се и лаким рашчлањивањем или комадањем.

Правила за цхункинг:

Нема унапред дефинисаних правила, али их можете комбиновати према потреби и захтевима.

На пример, из реченице треба да означите именицу, глагол (прошло време), придев и координациони спој. Можете користити правило као у наставку

комад: {<НН.?>*<ВБД.?>*<ЈЈ.?>* <ЦЦ>?}

Следећа табела показује шта значи различити симбол:

Назив симбола Опис
. Било који знак, осим нове линије
* Подударите 0 или више понављања
? Подударите 0 или 1 понављања

Сада напишимо код да бисмо боље разумели правило

from nltk import pos_tagfrom nltk import RegexpParsertext ="learn php from guru99 and make study easy".split()print("After Split:",text)tokens_tag = pos_tag(text)print("After Token:",tokens_tag)patterns= """mychunk:{***?}"""chunker = RegexpParser(patterns)print("After Regex:",chunker)output = chunker.parse(tokens_tag)print("After Chunking",output)

Оутпут

After Split: ['learn', 'php', 'from', 'guru99', 'and', 'make', 'study', 'easy']After Token: [('learn', 'JJ'), ('php', 'NN'), ('from', 'IN'), ('guru99', 'NN'), ('and', 'CC'), ('make', 'VB'), ('study', 'NN'), ('easy', 'JJ')]After Regex: chunk.RegexpParser with 1 stages:RegexpChunkParser with 1 rules:***?'>After Chunking (S(mychunk learn/JJ)(mychunk php/NN)from/IN(mychunk guru99/NN and/CC)make/VB(mychunk study/NN easy/JJ))

Закључак из горњег примера Питхон-а за означавање дела говора: „маке“ је глагол који није укључен у правило, па није означен као мицхунк

Случај употребе комадања

Одсецање се користи за откривање ентитета. Ентитет је онај део реченице којим машина добија вредност за било коју намеру

Example:Temperature of New York.Here Temperature is the intention and New York is an entity.

Другим речима, сецкање се користи као одабир подскупова токена. Слиједите доњи код да бисте схватили како се дијељење користи за одабир токена. У овом примеру ћете видети графикон који ће одговарати делу именичке фразе. Написаћемо код и нацртати графикон ради бољег разумевања.

Код за демонстрацију употребе

import nltktext = "learn php from guru99"tokens = nltk.word_tokenize(text)print(tokens)tag = nltk.pos_tag(tokens)print(tag)grammar = "NP: {
?*}"cp =nltk.RegexpParser(grammar)result = cp.parse(tag)print(result)result.draw() # It will draw the pattern graphically which can be seen in Noun Phrase chunking

Излаз :

['learn', 'php', 'from', 'guru99'] -- These are the tokens[('learn', 'JJ'), ('php', 'NN'), ('from', 'IN'), ('guru99', 'NN')] -- These are the pos_tag(S (NP learn/JJ php/NN) from/IN (NP guru99/NN)) -- Noun Phrase Chunking

Графикон

Графикон који одсеца именицу

Из графикона можемо закључити да су „научити“ и „гуру99“ два различита токена, али су категорисана као именичка фраза, док знак „из“ не припада именској фрази.

Цхункинг се користи за категоризацију различитих токена у исти комад. Резултат ће зависити од граматике која је изабрана. Даље комадање НЛТК користи се за обележавање образаца и истраживање корпуса текста.

Резиме

  • Означавање ПОС-ом у НЛТК је поступак означавања речи у текстуалном формату за одређени део говора на основу његове дефиниције и контекста.
  • Неки примери НЛТК ПОС означавања су: ЦЦ, ЦД, ЕКС, ЈЈ, МД, ННП, ПДТ, ПРП $, ТО итд.
  • ПОС означивач се користи за додељивање граматичких информација сваке речи реченице. Инсталирање, увоз и преузимање свих пакета означавања дела говора помоћу НЛТК је завршено.
  • Подешавање НЛП-а је процес за узимање малих информација и њихово груписање у велике јединице.
  • Нема унапред дефинисаних правила, али их можете комбиновати према потреби и захтевима.
  • Одсецање се користи за откривање ентитета. Ентитет је онај део реченице којим машина добија вредност за било коју намеру
  • Цхункинг се користи за категоризацију различитих токена у исти комад.