23 februari 2021
Werkt u aan NLP-projecten? Bent u het beu om altijd op zoek te zijn naar dezelfde domme voorbewerkingsfuncties op het web, zoals het verwijderen van accenten uit Franse berichten? Bent u het beu om uren bezig te zijn met Regex om e-mailadressen efficiënt uit een corpus te extraheren? Amale El Hamri zal u laten zien hoe NLPretext u van dienst kan zijn!
Overzicht NLPretext
NLPretext bestaat uit 4 modules: basis, sociaal, token en augmentatie.
Elk van hen bevat verschillende functies om de belangrijkste tekstvoorbewerkingstaken uit te voeren.
Basis voorbewerking
De basismodule is een catalogus van transversale functies die in elk gebruik kunnen worden gebruikt. Hiermee kunt u het volgende afhandelen:
voorbeeld = “Ik heb deze e-mail doorgestuurd naar obama@whitehouse.gov”
voorbeeld = replace_emails(voorbeeld, replace_with=”*EMAIL*”)
print(voorbeeld)
# “Ik heb deze e-mail doorgestuurd naar *EMAIL*”.”
Sociale voorbewerking
De sociaal module is een catalogus met handige functies die handig kunnen zijn bij het verwerken van de sociale data, zoals:
voorbeeld = “Ik verzorg mijn huid 😀”
voorbeeld = extract_emojis(voorbeeld)
print(voorbeeld) #[‘:grijnzend_gezicht:’]
Tekstvergroting
De augmentatiemodule helpt u om nieuwe teksten te genereren op basis van uw gegeven voorbeelden door enkele woorden in de oorspronkelijke te wijzigen en eventueel geassocieerde entiteiten ongewijzigd te laten in het geval van NER-taken. Als u wilt dat andere woorden dan entiteiten ongewijzigd blijven, kunt u dit opgeven in het argument Stopwoorden. Wijzigingen hangen af van de gekozen methode, de methoden die momenteel door de module worden ondersteund zijn substituties met synoniemen met Wordnet of BERT uit de nlpaug bibliotheek.
Creëer uw end-to-end pijplijn
Standaard pijplijn
Onze bibliotheek biedt een Preprocessor-object om alle voorbewerkingen efficiënt uit te voeren.
Als u alle elementen van uw tekst moet behouden en een minimale opschoning moet uitvoeren, gebruik dan de standaard pijplijn. Deze normaliseert witruimtes en verwijdert newline-tekens, lost unicode-problemen op en verwijdert terugkerende artefacten uit sociale data zoals vermeldingen, hashtags en HTML-tags.
Aangepaste pijplijn
Als u een duidelijk idee hebt van welke voorbewerkingsfuncties u in uw voorbewerkingspijplijn wilt opnemen, kunt u deze toevoegen in uw eigen Preprocessor.
NLPretext installatie
Voer het volgende uit om de bibliotheek te installeren

BLOG






