НЛТК Токенизе: Токенизер речи и реченице са примером

Преглед садржаја:

Anonim

Шта је токенизација?

Токенизација је поступак којим се велика количина текста дели на мање делове који се називају жетони. Ови лексеми су веома корисни за проналажење образаца и сматрају се основним кораком за резање и лематизацију. Токенизација такође помаже да се осетљиви елементи података замене неосјетљивим елементима података.

Обрада природног језика користи се за изградњу апликација као што су класификација текста, интелигентни цхатбот, сентиментална анализа, превод језика, итд. Постаје неопходно разумети образац текста како би се постигла горе наведена сврха.

За сада не брините о теми и лематизацији, већ их третирајте као кораке за чишћење текстуалних података помоћу НЛП-а (обрада на природном језику). О темама и лематизацији разговараћемо касније у водичу. Задаци попут класификације текста или филтрирања нежељене поште користе НЛП заједно са библиотекама дубоког учења као што су Керас и Тенсорфлов.

Комплет алата за природни језик има веома важан модул НЛТК за означавање реченица који се даље састоје од подмодула

  1. реч токенизовати
  2. реченица токенизовати

Токенизација речи

Користимо методу ворд_токенизе () да поделимо реченицу на речи. Излаз токенизације речи може се претворити у Дата Фраме за боље разумевање текста у апликацијама за машинско учење. Такође се може обезбедити као улаз за даље кораке чишћења текста, попут уклањања интерпункције, уклањања нумеричких знакова или резања. Модели машинског учења требају нумеричке податке да би се обучили и направили предвиђање. Токенизација речи постаје пресудни део конверзије текста (низа) у нумеричку. Молимо прочитајте о Баг оф Вордс или ЦоунтВецторизер-у. Погледајте доњу реч за означавање примера НЛТК да бисте боље разумели теорију.

from nltk.tokenize import word_tokenizetext = "God is Great! I won a lottery."print(word_tokenize(text))Output: ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lottery', '.']

Објашњење кода

  1. модул ворд_токенизе се увози из библиотеке НЛТК.
  2. Променљива „текст“ иницијализује се са две реченице.
  3. Текстуална променљива се преноси у модул ворд_токенизе и исписује резултат. Овај модул разбија сваку реч интерпункцијом коју можете видети на излазу.

Токенизација реченица

Подмодул доступан за горе наведено је сент_токенизе. Очигледно питање у вашем уму било би зашто је токенизација реченица потребна када имамо могућност токенизације речи . Замислите да требате да избројите просечне речи по реченици, како ћете израчунати? Да бисте извршили такав задатак, потребан вам је и НЛТК токенизер реченица као и НЛТК токенизер речи да бисте израчунали однос. Такав излаз служи као важна карактеристика за машинску обуку јер би одговор био нумерички.

Погледајте доњи пример НЛТК токенизера да бисте сазнали како се токенизација реченица разликује од токенизације речи.

from nltk.tokenize import sent_tokenizetext = "God is Great! I won a lottery."print(sent_tokenize(text))Output: ['God is Great!', 'I won a lottery ']

Имамо 12 речи и две реченице за исти унос.

Објашњење програма:

  1. У линију попут претходног програма, увезени су модул сент_токенизе.
  2. Заузели смо исту реченицу. Даљи токенизер реченица у модулу НЛТК рашчланио је те реченице и показао излаз. Јасно је да ова функција разбија сваку реченицу.

Примери токенизера речи Питхон добри су каменчићи за подешавање за разумевање механике токенизације речи и реченице.

Резиме

  • Токенизација у НЛП-у је процес којим се велика количина текста дели на мање делове који се називају жетони.
  • Обрада природног језика користи се за изградњу апликација као што су класификација текста, интелигентни цхатбот, сентиментална анализа, превод језика итд.
  • Комплет алата за природни језик има веома важан модул НЛТК за означавање реченице који се даље састоји од подмодула
  • Користимо методу ворд_токенизе () да поделимо реченицу на речи. Излаз токенизера речи у НЛТК може се претворити у Дата Фраме за боље разумевање текста у апликацијама за машинско учење.
  • Подмодул доступан за горе наведено је сент_токенизе. Токенизатор реченице у Питхон НЛТК је важна карактеристика за машинску обуку.