top of page
Writer's pictureLegal Business World

Artificial Intelligence en Data Science voor eDiscovery


Artificial Intelligence en Data Science voor eDiscovery

Een robot die alle jurisprudentie en andere juridische documentatie kent. Die nooit ziek is, 24 uur per dag werkt en steeds slimmer wordt. De opkomst van “LegalTech” is niet te stuiten maar wat is LegalTech eigenlijk? Hoe werkt het en hoe kunnen we de kwaliteit ervan controleren? Logische vragen die om een eerlijk antwoord vragen.

Allereerst even een misverstand uit de wereld helpen: een computer leert niet uit zichzelf en een computer heeft ook geen notie van bewustzijn. Dat komt alleen voor in Hollywood films over Artificial Intelligence. Bij de algoritmes die gebruikt zijn voor de ontwikkeling van het Legal Review van ZyLAB, wordt gebruik gemaakt van zogenaamde “supervised machine learning”. Dat zijn algoritmes die aan de hand van een groot aantal voorbeelden (zowel positieve als negatieve) een bepaalde categorie documenten leren herkennen.

Wat is “legaltech”?

Legaltech is (IT-)technologie die eenvoudige, juridische taken automatiseert. Dit gaat verder dan het automatisch opzoeken van referenties en jurisprudentie. Door grote hoeveelheden informatie door de computer te laten analyseren, kan de jurist sneller en beter geïnformeerd inschatten welke strategie het meest efficiënt is.

De meerwaarde van legaltech in de juridische wereld zit vooral in het toenemend belang van kwaliteit van informatie aan de ene kant en de groeiende omvang van de informatie aan de andere kant. Juridisch werk staat of valt met de kwaliteit van de informatie waarop de jurist zich kan baseren. En doordat het volume van data en informatie dat ondernemingen opslaan, expo-nentieel toeneemt en steeds moeilijker toegankelijk is, wordt het steeds lastiger om handmatige reviews te doen.

Automatisering biedt uitkomst

Een machine kun je leren om patronen en verbanden te ontdekken in grote datasets. Aan de hand van zogenaamde trainingsdata wordt een classificatiesysteem getraind. Nieuwe stukjes data worden vervolgens geclassificeerd aan de hand van (latente) patronen die ontdekt zijn in de trainingsdata. Zo wordt het na genoeg training uiteindelijk mogelijk om het gedrag van nieuwe data te voorspellen. En zo kun je een computer trainen om documenten te organiseren en analyseren.

Robots leren niet uit zichzelf

Veel eenvoudige juridische werkzaamheden kunnen worden geautomatiseerd. Maar we worden straks echt niet allemaal vervangen door een robot. De belangrijkste reden; een computer leert niet uit zichzelf. Bij de ontwikkeling van robots voor juridische toepassingen, wordt gebruik gemaakt van zogenaamde supervised machine learning. Dat zijn algoritmes die aan de hand van een groot aantal voorbeelden (zowel positieve als negatieve) een bepaalde categorie documenten leert herkennen. In dat leren zit de toegevoegde waarde van de juridische professional. Want ook bij algoritmes geldt dat deze alleen goed functioneren als de data goed is, dus: stop je er troep in, dan krijg je er ook weer troep uit.

Validatie en verdedigbaarheid van processen en resultaten

Onafhankelijke en continue validatie van de resultaten en verdedigbaarheid van het geautomatiseerde proces is een van de meest belangrijke onderdelen van het gehele proces. Door een willekeurige steekproef te nemen en die door specialisten of senior advocaten te laten controleren, kan de kwaliteit van het proces continue in de gaten gehouden worden. Daarnaast is het zaak de onderliggende stappen en beslismomenten van het automatische proces goed te documenteren en via een audit-trail en met gedetailleerde rapportages vast te leggen.

Deze algoritmes hebben een zekere robuustheid, wat wil zeggen dat als ze verkeerde trainings-data krijgen, deze voor een groot deel genegeerd worden. Zo hebben wij bij wijze van experi-ment, bewust 30% van de trainingsdata verkeerd gelabeld en het negatieve effect op de kwaliteit van de classificatie was slechts een paar procent. Maar in principe geldt dat de algoritmes het zo goed doen als de data is, dus: “troep in betekent troep uit”.

Uitvoerig getest

De algoritmes die ZyLAB gebruikt, worden al jaren gebruikt en zijn uitvoerig getest in diverse omstandigheden bij zeer veel wetenschappelijk onderzoek. In alle gevallen presenteerden deze algoritmes beter dan mensen. In de meeste gevallen veel beter dan mensen (>50%) en in sommige gevallen zelfs heel veel beter (aantal malen beter). ZyLAB gebruikt verschillende soorten algoritmes die in bepaalde situaties allemaal hun voor- en nadelen hebben en afhankelijk zijn van de beschikbaarheid van veel of weinig trainingsdata, de noodzaak om classifiers te hergebuiken op andere data-sets of de beschikbare rekencapaciteit. Als gebruiker hoeft u zich hier geen zorgen om te maken, want de keuzes worden automatisch onder de motorkap voor u gemaakt.

 

Over ZyLAB

ZyLAB is een van de weinige Nederlandse softwarebedrijven met meer dan 30 jaar ervaring in eDiscovery en informatiemanagement en heeft zich bewezen in talrijke grootschalige corporate en strafrechtelijke zaken over de hele wereld.

Over de auteur

Prof. dr. ir. Johannes (Jan) C. Scholtes is Chairman en Chief Strategy Officer van ZyLAB. Scholtes was als ZyLAB’s President en CEO van 1989 tot 2009 betrokken bij het inzetten van eDiscovery software bij onder andere de Oorlogsmisdaden Tribunalen van de VN, de FBI-Enron onderzoeken, het Witte Huis en duizenden andere gebruikers wereldwijd.

Voordat hij in 1989 bij ZyLAB begon, was Scholtes luitenant bij de inlichtingendienst van de Koninklijke Nederlandse Marine. Scholtes is ingenieur (ir.) in de Informatica (TU Delft), doctor in ‘Computational Linguistics’ (Universiteit van Amsterdam) en bekleedt sinds 2008 de buitengewone leerstoel ‘Text Mining’ van de faculteit “Data Sciences and Knowledge Engineering” in de Artificial Intelligence groep van der Universiteit van Maastricht.

bottom of page