23 de fevereiro de 2021
O senhor trabalha em projetos de PNL? Cansado de procurar sempre as mesmas funções bobas de pré-processamento na Web, como remover acentos de publicações em francês? Cansado de passar horas trabalhando com Regex para extrair eficientemente endereços de e-mail de um corpus? Amale El Hamri mostrará como o NLPretext pode ajudar o senhor!
Visão geral do NLPretext
O NLPretext é composto por 4 módulos: básico, social, token e augmentation.
Cada um deles inclui funções diferentes para lidar com as tarefas mais importantes de pré-processamento de texto.
Pré-processamento básico
O módulo básico é um catálogo de funções transversais que podem ser usadas em qualquer caso de uso. Elas permitem que o senhor manipule:
exemplo = “Encaminhei este e-mail para obama@whitehouse.gov”
example = replace_emails(example, replace_with=”*EMAIL*”)
print(example)
# “Encaminhei este e-mail para *EMAIL*”
Pré-processamento social
O social O módulo é um catálogo de funções úteis que podem ser úteis ao processar o data social, como, por exemplo, o senhor:
exemplo = “Eu cuido da minha pele 😀”
exemplo = extract_emojis(exemplo)
print(example) #[‘:grinning_face:’]
Aumento de texto
O módulo de aumento ajuda o senhor a gerar novos textos com base nos exemplos fornecidos, modificando algumas palavras nos exemplos iniciais e mantendo as entidades associadas inalteradas, se houver, no caso de tarefas de NER. Se quiser que as palavras que não sejam entidades permaneçam inalteradas, o senhor pode especificá-las no argumento stopwords. As modificações dependem do método escolhido; as atualmente suportadas pelo módulo são substituições com sinônimos usando o Wordnet ou o BERT da biblioteca nlpaug.
Crie seu pipeline de ponta a ponta
Pipeline padrão
Nossa biblioteca fornece um objeto Preprocessor para canalizar com eficiência todas as operações de pré-processamento.
Se o senhor precisar manter todos os elementos do texto e realizar o mínimo de limpeza, use o pipeline padrão. Ele normaliza espaços em branco e remove caracteres de nova linha, corrige problemas de unicode e remove artefatos recorrentes de data social, como menções, hashtags e tags HTML.
Pipeline personalizado
Se o senhor tiver uma ideia clara de quais funções de pré-processamento deseja canalizar em seu pipeline de pré-processamento, poderá adicioná-las em seu próprio Preprocessador.
Instalação do NLPretext
Para instalar a biblioteca, execute

BLOG






