NLTK – Processamento de Linguagem Natural

A Decrease font size. A Reset font size. A Increase font size.

Falando NLTK pode soar estranho, mas é muito mais comum do que pensamos. O NLTK ou Processamento de Linguagem Natural (forma comumente encontrada para o termo) tem muita aplicabilidade cotidiana como correção ortográfica, autocompletar (sugestão de palavras), Detecção de conteúdos tóxicos e fake news, chatbos, análise de sentimentos, geração de resumos, extração de informações relevantes, reconhecimento de entidades nomeadas (pessoas, lugares, etc), entre muitos outros temas.

Geralmente o processamento de linguagem natural inicia com a separação do texto em sentenças ou palavras, retiradas de elementos secundários como preposições (de, da…), redução da palavra a sua forma base (chamado de lematização), ou mesmo a sua forma raíz (como radical).

Depois de toda essa estruturação do texto é possível fazer várias inferência Por exemplo, a análise de sentimento diante dos comentários dos clientes sobre a experiência com determinado produto. Pode ser considerado um sentimento negativo quando encontradas palavras como “ruim”, “péssimo”, “má”, entre outras. Do contrário o sentimento positivo será verificado por palavras como “bom”, “ótimo”, “excelente”, entre outras.

A criação de resumos também se utiliza dessa estruturação do texto para aplicar alguns algoritmos que avaliam os textos de formas específicas.

Os algoritmos utilizam diferentes estratégias como medir a importância das palavras dentro de um texto, medir a frequência com que as palavras aparecem, escolher frases com termos mais representativos, se utilizam de álgebra para identificar padrões semânticos e selecionar frases importantes, representam frases como nós de uma rede e avalia sua relevância com base na conectividade, para manter frases mais conectadas e importantes no resumo, entre outras abordagens.

Existem alguns critérios que podem indicar a escolha da abordagem, como o tamanho dos textos a serem trabalhados, o propósito da extração do resumo, a capacidade de processamento disponível, e assim por diante.

Como exemplo prático da aplicabilidade das NLTK no Appresumos já citados em posts anteriores 1, 2 foram selecionados 6 algoritmos diferentes para oportunizar diferentes percepções e focos sobre um mesmo texto. No olhar científico não foi declarada uma expressividade exata sobre os algoritmos, que o resultado de cada algoritmo, mas foi definido a sua caracterização quando a forma de contabilizar, agrupar, classificar e estabelecer relações entre as estruturas dos textos, palavras, sentenças.

Nesse posto não vou aprofunda as estratégias dos algoritmos. Contudo, na tentativa de comunicar a qualquer pessoa como os algoritmos aplicados se comportam, esbocei ideia central para os seus resultados:

1. Luhn – Resumo de conceitos e significados do texto;
2. LSA – Resumo com tópicos principais;
3. TextRank – Resumo das principais sentenças de textos longos;
4. LexRank – Resumo coeso de textos longos;
5. SumBasic – Resumo em texto curto e simples;
6. Reduction – Resumo compacto remove informações menos relevantes;