Falando NLTK pode soar estranho, mas é muito mais comum do que pensamos. O NLTK ou Processamento de Linguagem Natural (forma comumente encontrada para o termo) tem muita aplicabilidade cotidiana como correção ortográfica, autocompletar (sugestão de palavras), Detecção de conteúdos tóxicos e fake news, chatbos, análise de sentimentos, geração de resumos, extração de informações relevantes, reconhecimento de entidades nomeadas (pessoas, lugares, etc), entre muitos outros temas.
Geralmente o processamento de linguagem natural inicia com a separação do texto em sentenças ou palavras, retiradas de elementos secundários como preposições (de, da…), redução da palavra a sua forma base (chamado de lematização), ou mesmo a sua forma raíz (como radical).
Depois de toda essa estruturação do texto é possível fazer várias inferência Por exemplo, a análise de sentimento diante dos comentários dos clientes sobre a experiência com determinado produto. Pode ser considerado um sentimento negativo quando encontradas palavras como “ruim”, “péssimo”, “má”, entre outras. Do contrário o sentimento positivo será verificado por palavras como “bom”, “ótimo”, “excelente”, entre outras.

A criação de resumos também se utiliza dessa estruturação do texto para aplicar alguns algoritmos que avaliam os textos de formas específicas.
Os algoritmos utilizam diferentes estratégias como medir a importância das palavras dentro de um texto, medir a frequência com que as palavras aparecem, escolher frases com termos mais representativos, se utilizam de álgebra para identificar padrões semânticos e selecionar frases importantes, representam frases como nós de uma rede e avalia sua relevância com base na conectividade, para manter frases mais conectadas e importantes no resumo, entre outras abordagens.
Existem alguns critérios que podem indicar a escolha da abordagem, como o tamanho dos textos a serem trabalhados, o propósito da extração do resumo, a capacidade de processamento disponível, e assim por diante.

Como exemplo prático da aplicabilidade das NLTK no Appresumos já citados em posts anteriores 1, 2 foram selecionados 6 algoritmos diferentes para oportunizar diferentes percepções e focos sobre um mesmo texto. No olhar científico não foi declarada uma expressividade exata sobre os algoritmos, que o resultado de cada algoritmo, mas foi definido a sua caracterização quando a forma de contabilizar, agrupar, classificar e estabelecer relações entre as estruturas dos textos, palavras, sentenças.
1. Luhn – Resumo de conceitos e significados do texto;
2. LSA – Resumo com tópicos principais;
3. TextRank – Resumo das principais sentenças de textos longos;
4. LexRank – Resumo coeso de textos longos;
5. SumBasic – Resumo em texto curto e simples;
6. Reduction – Resumo compacto remove informações menos relevantes;

Acima podemos ver a tela do Appresumos com os resumos gerados. Sintam-se a vontade para testar o App.
Me digam também, vocês já utilizaram NLTK?
Conhecem esses algoritmos citados? Se conhecem, fez sentido a proposta de ideia central que eu esbocei sobre eles?
Deixe seus comentários, vamos expandir essa discussão