[Use cases in AI]: Junior Ankita: “Dit was een geweldige leerervaring. Zelfs als we overwerkten, had niemand het gevoel dat hij iets extra’s deed.”

door Apr 6, 2021Nieuws

Al doende leren staat centraal in BeCode’s aanpak. Daarom zijn we voortdurend op zoek naar real-life projecten waar onze junioren op kunnen oefenen en van kunnen leren. Om de kennis van onze Brusselse AI-junioren op de proef te stellen, sloegen we de handen in elkaar met KPMG. De uitdaging? Het automatiseren van documenten met behulp van NLP-technieken. Benieuwd naar wat het project precies inhield én hoe onze junioren het ervaren hebben? Ankita vertelt er je alles over in onderstaand interview.

Kun je ons wat meer vertellen over jezelf?
“Ik ben afkomstig van India en ben vier jaar geleden verhuisd naar België. Voor ik naar België kwam, werkte ik meer dan acht jaar in de bankensector. Maar eenmaal aangekomen hier, vond ik het tijd om een nieuw carrièrepad te bewandelen. BeCode leek me de perfecte gelegenheid om mijn interesse in IT verder uit te diepen. Ik heb namelijk een bachelordiploma in computerwetenschappen. Meer specifiek leek dit me de unieke kans om mijn kennis van het data science veld uit te breiden, een bijzonder hot topic vandaag de dag. Ik besloot me in te schrijven en tot noch toe vond ik het een geweldige ervaring.’

Waarom koos je voor BeCode en niet voor een gelijkaardig opleidingscentrum?
“De andere opleidingen waar ik op stuitte werden meestal in het Frans of het Nederlands gegeven, maar deze opleiding werd in het Engels gegeven. Bovendien is dit opleidingstraject gratis. Beide factoren maakten dat ik me wilde inschrijven én uiteindelijk werd ik geselecteerd.’

Hoe ver zit je in het opleidingstraject?
“Het einde van de opleiding nadert. We hebben nog maar tien dagen te gaan.”

Wat heb je tot nu toe geleerd? 
“Heel veel. Deze reis was fantastisch. Voor ik aan dit opleidingstraject begon, had ik al wat kennis van Python en andere tools die gebruikt worden in het veld, maar ik nam altijd mijn tijd om nieuwe dingen te leren omdat ik me niet gehaast voelde. Tijdens de opleiding hebben we zoveel onderwerpen bestudeerd in zo’n korte tijd. In zeven maanden tijd heb ik zoveel meer geleerd dan wat ik in mijn eentje had kunnen leren.”

“We hebben geleerd hoe we moeten coderen in Python, maar hebben ons ook toegespitst op data visualisatie tools zoals PowerBI, machine learning, deep learning, computer vision en NLP.”

Als onderdeel van de AI-bootcamp hebben jullie gewerkt aan een use case, aangeleverd door KPMG. Kun je ons iets meer vertellen over deze use case? 
“Een van KPMG’s klanten benaderde hen omdat ze wel wat hulp konden gebruiken bij de verwerking van hun data, meer specifiek CAO’s (Collectieve Arbeidsovereenkomst). Voorheen moesten ze zelf op zoek gaan naar nieuwe CAO’s op de website van de overheid, wat bijzonder tijdrovend is. Deze use case had als doel om dit proces te automatiseren. In eerste instantie moesten we een systeem ontwikkelen dat hen verwittigt wanneer er een nieuwe CAO geüpload wordt. Zo kunnen ze hun informatie niet alleen sneller, maar ook gemakkelijker updaten. Later moesten we een systeem ontwikkelen dat al deze CAO’s opslaat en waar je gemakkelijk in kunt zoeken naar CAO’s over een welbepaald onderwerp.’

Hoeveel tijd kreeg je voor dit project?
“Het was de eerste keer dat we aan een drie weken durend project werkten. We hebben één project gehad dat twee weken duurde, maar alle andere projecten besloegen slechts een week.”

Wat waren de verschillende fases van het project?
“Bij de start van het project brainstormden we over hoe we deze uitdaging zouden kunnen aanpakken en welke technieken we nodig zouden hebben om ons doel te bereiken. Maar voor we effectief in het project doken, waarschuwde KPMG ons dat we OCR-technieken (Optical Character Recognition) zouden moeten gebruiken. Ons model zou de PDF’s anders niet kunnen lezen en begrijpen. In onze zoektocht naar dergelijke tools stuitten we op nieuwe instrumenten voor tekst extractie, namelijk Tesseract en Pytesseract.”

“Sommige PDF’s waren in het Nederlands geschreven, anderen in het Frans, anderen dan weer in beide talen. Dit maakte het bijzonder moeilijk om een database te ontwikkelen. We besloten daarom uitsluitend te werken met de Franse PDF’s.’

“De PDF’s waren ook verschillend gestructureerd. Soms was er maar één kolom aanwezig, in andere documenten waren er twee. Soms bestond het document uit één pagina, soms uit meerdere pagina’s. We moesten dus een mechanisme ontwikkelen dat kon detecteren hoe het document gestructureerd was.”

“We kwamen tijdens de test extractie fase voor verschillende uitdagingen te staan, maar we wisten ze één voor één te tackelen. We slaagden er uiteindelijk in om een systeem te ontwikkelen dat tekstdelen bijzonder nauwkeurig kon extraheren.” 

Welke stappen doorliepen jullie na de tekstextratie?
“We reikten KPMG een totaaloplossing aan. We hebben een database ontwikkeld met behulp van SQL-bibliotheken zoals SQLight. In deze database werden de verschillende documenten, samen met hun link naar de website van de overheid, opgeslagen. We bouwden ook een userinterface die de gebruiker moest toelaten om naar specifieke informatie te zoeken. Hiervoor gebruikten we Heroku en Streamlit.”

Jullie moesten in groep werken aan deze use case. Hoe verliep de samenwerking?
“We waren een groep van vijf én stonden in nauw contact met elkaar. Elke ochtend en avond stond er een meeting op de agenda, maar ook doorheen de dag aarzelden we niet om elkaar te contacteren als we tegen een probleem aanliepen.”

“We verdeelden de taken en iedereen wist precies wat hij of zij moest doen. Orhan ontwierp een bijzonder nauwkeurige database. Opaps, onze project manager, was ronduit briljant in zijn rol. Hij zorgde ervoor dat iedereen zijn taak op tijd afleverde. Samen met Adam focuste ik op tekst extractie en tekst structurering. Later zorgde ik er ook voor dat ons model ter beschikking gesteld werd aan de gebruiker Tot slot was er Dilara. Zij was verantwoor-

delijk voor het maken van de gebruikersinterface en het voorbereiden van onze presentatie.”

Soft skills, zoals werken in een groep, zijn van vitaal belang bij dergelijke projecten. Welke andere soft skills, die je hebt geleerd tijdens je BeCode-opleiding, hebben je geholpen tijdens dit project? 
“Compromissen leren sluiten. Soms waren we het oneens, maar op een gegeven moment moet je deze verschillen gewoon opzij kunnen zetten. Waar het echt om draait, is dat je een goed project aflevert.”

Hoe zijn jullie met deze meningsverschillen omgegaan?
“We overlegden in groep. Elk teamlid werd gehoord, maar de uiteindelijke beslissing werd genomen door onze projectmanager. Je kunt niet blijven hangen op één discussiepunt, je moet vooruit.”

Je hebt tools zoals Heroku gebruikt om het model uit te rollen. Welke andere tools of technologieën heb je gebruikt tijdens dit project? 
“In de tekst extractie fase hebben we Tesseract en Pytesseract gebruikt. We hebben ook gebruik gemaakt van andere tools waar we tot dan toe nog nooit mee hadden gewerkt. Zo hebben we SQLight bijvoorbeeld gebruikt om onze database te bouwen.”

“Als je in de database zoekt naar documenten over een bepaald onderwerp, krijg je niet altijd alle resultaten te zien. Documenten kunnen nu eenmaal spelfouten bevatten. Orhan ontdekte een Google API die deze spelfouten kan corrigeren. Deze tool maakte ons systeem veel efficiënter.”

Heb je, naast het ontdekken van nieuwe tools, ook nieuwe vaardigheden verworven tijdens dit project?
“Sommige NLP-technieken waarmee we een vraag-antwoordsysteem hoopten te bouwen. We zijn er echter niet in geslaagd om deze tool uit te werken en creëerden uiteindelijk een zoekmachine. Ik ben er zeker van dat als we meer tijd gehad zouden hebben, we een beter eindresultaat hadden kunnen aanleveren.”

Doorheen het tekst extractie proces kwamen jullie voor diverse uitdagingen te staan, maar ook later doken er diverse meningsverschillen op. Zijn jullie doorheen het project nog voor andere uitdagingen komen te staan?  
“Time management. Tijdens het project moesten we ook zoeken naar een stageplaats waardoor sommige groepsleden niet altijd beschikbaar waren om aan hun deel van het project te werken. Maar ook wanneer we de intentie hadden om slechts enkele minuten te vergaderen, kon de vergadering soms enkele uren duren. Hierdoor hebben we veel tijd verloren, maar uiteindelijk is alles goed gekomen.”

Jullie moesten het eindresultaat ook moeten presenteren aan KPMG. Hoe zijn de presentaties verlopen?
“Ze waren erg tevreden met het eindresultaat, maar ik had wel het gevoel dat ze meer hadden verwacht dan de zoekmachine die we hebben gebouwd. Het vraag-antwoordsysteem dat we eerst in gedachten hadden, was waarschijnlijk nuttiger geweest, maar we zijn er niet in geslaagd om dit af te werken.”

Welke feedback heb je zoal ontvangen? 
“Ze hadden bepaalde verwachtingen die we voor een groot stuk hebben kunnen inlossen, maar ze hadden graag een oplossing gezien die zich nog meer toespitste op NLP, wat ik kan begrijpen.”

“Maar over het algemeen waren ze erg tevreden met het eindresultaat. Ze waren erg onder de indruk van de Google API die we hadden gebruikt om spelfouten te corrigeren en vonden onze userinterface er geweldig uitzien.”

Hoe heb je het project in het algemeen ervaren? 
“Dit was een geweldige leerervaring. Zelfs als we overwerkten, had niemand het gevoel dat hij iets extra’s deed.”

Wat is volgens jou de toegevoegde waarde van dit soort use-cases in de AI-bootcamp? 
“Als je theorie leest, denk je misschien dat je bepaalde concepten effectief begrijpt. Maar het is pas wanneer je aan dergelijke projecten werkt, dat je daadwerkelijk leert hoe je je kennis kunt toetsen aan de praktijk. Met dit soort projecten leer je dus veel meer dan pure theorie. Als KPMG ons deze use-case niet had aangereikt, hadden we geen concrete ervaring kunnen opdoen met OCR-technieken en het bouwen van databases. Voor mij is het daarom ontzettend belangrijk om dergelijke projecten te integreren in de opleiding.” 

Wat is je advies voor iemand die op het punt staat om met een soortgelijk project te starten? 
“Zorg ervoor dat je weet wat de precieze eisen van de klant zijn voordat je start met het project.  In ons geval heerste er wat onduidelijkheid waardoor we er in de tweede week pas achter gekomen zijn wat er precies van ons verwacht werd. We zijn zo bijzonder veel tijd verloren aan zaken die overbodig of niet zinvol waren.”

Het einde van de opleiding nadert. Wat zijn je plannen voor na de opleiding? 
“Het vinden van een stageplaats. Ik heb elke dag sollicitatiegesprekken, maar heb tot noch toe geen stageplek gevonden.”

Naar wat voor stage ben je precies op zoek?
“Een stage als data-analist of data scientist. Als ik geen stage kan vinden, zou een baan ook volstaan.”

Voel je je klaar voor je nieuw carrièrepad?
“Ik voel me er zeker klaar voor om een carrière te starten in dit veld. Ik mis nog wel wat kennis, daar ben ik het mee eens, maar als ik me erop richt om deze kenniskloof te dichten, kan ik vooruit gaan.”

Ben je geïnteresseerd in het volgen van onze AI-bootcamp?

Fantastisch! – Er starten nieuwe klassen in Brussel, Antwerpen, Gent en Luik.

 

Latest news

Recent articles

AI data science coach Antwerpen & Gent

AI data science coach Antwerpen & Gent

JoboverzichtHeb je praktijkervaring met data science-/AI-projecten die steunen op machine learning, NLP of computer vision? Wil je mensen hun leven over een andere boeg helpen gooien door hen op te leiden tot junior AI/data operators? BeCode werft AI/data science...

Web dev coach Vlaanderen

Web dev coach Vlaanderen

JoboverzichtOnze coaches zijn sherpa's en kennen de sluiproutes in de bergen die onze leerlingen, ook wel juniors genoemd, veilig moeten helpen oversteken. Tijdens hun reis verwerven ze de soft en hard skills die de arbeidsmarkt vereist. Door ons pedagogisch kader,...