Efficiënte documentverwerking voor beleidsmakers
Context en doelstellingen
Een internationale publieke organisatie had geen gecentraliseerde aanpak om de publicaties van partners te controleren. Hierdoor konden ze niet effectief informatie verwerken om te onderzoeken en te verwijderen uit rapporten en beleid.
Ze wilden websites van partnerinstellingen scrapen op verschillende niveaus (bijv. internationaal, lokaal en regionaal) en documenten verzamelen en classificeren die betrekking hadden op de onderwerpen die hun beleidsmakers interesseren. Het verkrijgen van precieze scrapingmethoden en algoritmen voor natuurlijke taalverwerking (NLP) was cruciaal voor hen om de middelen effectief te kunnen toewijzen.
We zijn begonnen met het verzamelen van openbaar beschikbare, open gegevens om onze klant te helpen beter geïnformeerd beleid te maken.
Benadering
Na het leveren van een serverloos, kostenefficiënt proof of concept (POC) vroeg de klant ons een prototype voor deze pijplijn te ontwikkelen. We voerden rondes van agile implementaties direct op de omgeving van de klant uit om er zeker van te zijn dat de oplossing aansloot op hun behoeften.
De documenten die aan het proces werden toegevoegd, moesten worden voorzien van een samenvatting, een titel, trefwoorden en de mogelijkheid om ze te classificeren op basis van interessegebieden (40+). Er is geen gemeenschappelijke structuur of formaat voor de documenten, die in alle talen van de Europese Unie binnenkomen.
De oplossing werd geïmplementeerd in de AWS-omgeving van de klant, waarbij we de cloudinfrastructuur ontwierpen en implementeerden met Terraform voor onderhoudsgemak en schaalbaarheid. We implementeerden een API om te scrapen organisaties te beheren en specifieke documenten in de pijplijn op te nemen.
We codeerden het prototype in Python, gebruikten Docker voor containerisatie en maakten gebruik van SQL-databases. Belangrijke uittreksels uit de documenten werden vertaald naar het Engels, voor een optimaal en efficiënt gebruik.
De belangrijkste resultaten waren:
Code om infrastructuur te implementeren en het schrapen van documenten en hun NLP-analyse uit te voeren.
Documentatie over de implementatie van de Infrastructure as Code (IaC)-oplossing met de omgeving van de klant.
Rondes van validatietests met beveiligingsaudits voor klanten en cloud.
Kennisdeling met het team van de klant voor volledig eigenaarschap van alle onderdelen van de pijplijn en de capaciteit om deze uit te breiden met nieuwe functies.
Resultaten
De oplossing voor het classificeren van documenten helpt onze klant bij het verbeteren van hun vermogen om documenten en informatie te vinden die beleidsvorming en beslissingen ondersteunen.
Ze noemden dat de oplossing kwaliteit en snelheid, flexibiliteit, veiligheid en kosteneffectiviteit bracht in hun zoek- en beslissingsprocessen.