Operationele efficiëntie verbeteren met LLM's

Gebruikmaken van grote taalmodellen om sneller, goedkoper en betrouwbaarder waardevolle inzichten te verkrijgen uit ongestructureerde tekstgegevens dan een fulltime analist.

Een professionele dienstverlener wilde de belangrijkste trends uit de sector halen uit kwartaalrapporten van bedrijven.

In dit project hebben we aangetoond hoe grote taalmodellen (LLM's) waardevolle inzichten kunnen halen uit enorme hoeveelheden ongestructureerde gegevens. Voor sommige taken kon onze pijplijn zelfs het handmatige werk van een financieel analist overtreffen.

Context en doelstellingen

Het doel van het project was om duidelijke en volledige inzichten te krijgen in sectorale trends en de strategieën van bedrijven.

Aan het einde van het project moest onze LLM-pijplijn bewijzen dat het haalbaar is om de vereiste informatie sneller te extraheren dan een financieel analist, terwijl de kwaliteit van de gegevens behouden blijft. Om overtuigend te zijn, mocht de LLM-pijplijn niet toestaan dat de financieel analist de werklast inhaalde die de pijplijn aankon.

Een belangrijk deel van onze doelstelling was om sneller en betrouwbaarder te zijn dan een mens.

Ongeveer 500 bedrijfsverslagen van driemaandelijkse aandeelhoudersvergaderingen leverden grote hoeveelheden rijke ongestructureerde tekstgegevens op voor analyse door grote taalmodellen.

Ons doel was echter om specifieke trends met betrekking tot één afdeling te extraheren. Dit betekende dat het kon voorkomen dat slechts een paar zinnen in een heel rapport naar het gewenste onderwerp verwezen. Om deze reden moesten we voorzichtig zijn met de implicaties van schaarse gegevens op de resultaten, vooral de impact op de nauwkeurigheid.

Bovendien, omdat een belangrijk deel van onze doelstelling was om sneller en betrouwbaarder te zijn dan een mens, moesten we onze resultaten vergelijken met die van een analist die dezelfde gegevens handmatig verwerkte. We identificeerden drie primaire uitdagingen die we moesten overwinnen om de doelstelling van het project te halen:

  • Volledigheid: Een analist die de inhoud leest, mag geen essentiële informatie of inhoud missen. Om de doelstelling te halen, moesten we er dus voor zorgen dat ons model met een hoge mate van zekerheid geen essentiële informatie miste.

  • Betrouwbaarheid: Een analist die het rapport leest, zou geen informatie verzinnen of veranderen. We moesten er dus voor zorgen dat ons model geen hallucinaties had en als we geen perfecte resultaten hadden, moesten we redelijke betrouwbaarheidsniveaus instellen.

  • Structuur: Onze oplossing moest patroon- en trenddetectie in een gestructureerd formaat mogelijk maken. We bereikten dit door de tekst succesvol om te zetten in gestructureerde gegevens in Excel, waardoor verdere kwantitatieve en kwalitatieve analyses (zoals dashboards) mogelijk werden.

Benadering

De aanpak kan worden opgesplitst in twee hoofdstappen:

  • Informatie filteren en samenvatten uit de ruwe tekstrapporten: De output van deze eerste stap was het creëren van een lijst met sleutelzinnen voor elk rapport. Deze sleutelzinnen bevatten en vatten alle inzichten samen die gestructureerd moeten worden.

  • Zinnen structureren: De sleutelzinnen moesten vervolgens worden gestructureerd zodat ze in een Excel-indeling pasten. De grootste uitdaging hierbij was de diversiteit van de opmaak van de informatie.

Poolingsysteem met meerdere op maat gemaakte modellen

Om de nauwkeurigheid van de inhoudsextractie verder te verbeteren, gebruikten we een techniek die pooling wordt genoemd. In plaats van te vertrouwen op één model, hebben we de resultaten van meerdere modellen samengevoegd. Deze techniek resulteerde in een aanzienlijke verbetering van de nauwkeurigheid van de inhoudsextractie met 50%!

Poolingsysteem

Op LLM gebaseerd stemsysteem

Om ervoor te zorgen dat aan de uitdaging van betrouwbaarheid werd voldaan, introduceerden we een stemsysteem. Dit systeem bestond uit het uitvoeren van herhaalde query's met verschillende modellen (GPT-3.5 en GPT-4) en het toekennen van stemrechten aan elk model. We selecteerden de uitvoer met het hoogste aantal stemmen als resultaat. Als het aantal stemmen niet aan een bepaalde drempelwaarde voldeed, classificeerden we de geëxtraheerde informatie als onbetrouwbaar en onderhevig aan handmatige controle.

We vonden het essentieel om prioriteit te geven aan onmiddellijke kwaliteit boven het upgraden van het model om de beste resultaten te behalen.

Gedurende het project werd het duidelijk dat de kwaliteit van de prompt de resultaten aanzienlijk beïnvloedde. Zelfs met de nieuwste en duurdere GPT-modellen leverde het beginnen met een goed ontworpen en verfijnde basis prompt betere resultaten op. Daarom vonden we het essentieel om de kwaliteit van de prompt prioriteit te geven boven het upgraden van het model om de beste resultaten te behalen.

Bovendien was de afweging tussen investering (tijd en geld) en resultaten een belangrijke overweging. De overgang van GPT-3.5 naar GPT-4 resulteerde in een 30X stijging van de kosten. Dit bedrag is duizelingwekkend en het was van cruciaal belang om een systeem te ontwikkelen dat deze afweging kon maken.

een diagram dat het selectieproces van een LLM illustreert

Het proces van het kiezen van de juiste LLM

De operationele kosten van de LLM-pijplijn waren minstens tien keer goedkoper dan een voltijdse analist.

We schatten dat ons snelle ontwikkelingsproces resulteerde in lagere totale kosten dan vergelijkbaar handmatig werk van een fulltime analist. Uit onze eerste schattingen bleek dat de operationele kosten van de LLM pipeline minstens tien keer goedkoper waren dan die van een fulltime analist.

Resultaten

We ontwikkelden voor onze klant een oplossing met LLM's die gegevens sneller en goedkoper kon extraheren dan een analist en die even nauwkeurig en betrouwbaar was, zo niet betrouwbaarder.

In dit project moesten we de uitdaging van volledigheid, betrouwbaarheid en structuur in onze aanpak overwinnen. Dit bewees verder dat onze klant met succes LLM's kon implementeren om tijdrovend handmatig werk te elimineren en de operationele efficiëntie te verbeteren.

_

Geschreven door Joleen Bothma

Vorige
Vorige

B2B-groei met geavanceerde lead scoring

Volgende
Volgende

Toekomstbestendige datawarehousing in professionele dienstverlening