Spraakherkenning. De evolutie naar een volwassen oplossing

Legal Business World
Dec 5, 2017
10 min read

Er is nogal wat negativiteit weg te poetsen voor wat betreft spraakherkenning voor advocaten. We merken het dagelijks. Pijn uit het verleden. Hoe is dat zo gekomen?

In 1995 startte ik voor het eerst met een softwarepakket spraakherkenning op een röntgenafdeling. Een karretje kwam binnen-rijden met daarop een computer en een microfoon. Op deze ‘snelle’ computer draaide spraakherkenning met software uit België. Eén secretaresse werd ontslagen en de uiteindelijke besparing zou gigantisch worden.

Het premature systeem werkte niet volgens de huidige continue spraakherkenning. Je moest staccato spreken. Elk woord los van elkaar uitspreken en vooraf elk woord 5 keer oefenen. Dat gold voor elke radioloog. Een radioloog gebruikt zo’n 50.000 medische woorden, ga er maar aan staan. Door de woorden te oefenen leerde het systeem de uitspraak per arts. Ook spraakcommando’s werden op deze manier geoefend.

Innovatief als we waren, maakten we een commando waarmee een ingesproken verslag in een keer werd afgesloten en beveiligd verstuurd naar de huisarts. Het commando was: Verslag Klaar. ‘Verslag Klaar’ werkte prima totdat een specifieke radioloog het commando oefende. Tijdens het oefenen werd gelijktijdig een grote loden schuifdeur met een klap dichtgegooid. Helaas leerde spraakherkenning dit commando zeer snel en steevast, wanneer de schuifdeur werd dichtgegooid, startte het commando ‘Verslag Klaar’ en werd het röntgenverslag afgesloten en beveiligd verstuurd naar de huisarts. Soms met één regeltje of halverwege de tekst. Wat we ook probeerden, we raakten dit commando niet meer kwijt.

Na een jaar werd de stekker uit het project getrokken en waren we personeel en spraakherkenning kwijt. Gefrustreerd, maar toch ook leerzaam deze eerste kennismaking met spraakherkenning.

Frustraties waren niet alleen bij de artsen aanwezig. Advocaten kennen nog de Lernout & Hauspie (L&H) -affaire, het succesvolle Belgische bedrijf kwam in 2000 in opspraak omtrent het bestaan van spookbedrijven en boekhoudkundige onregelmatigheden. Ook een interessant verhaal trouwens. Jo Lernout heeft een boeiend boek geschreven over deze heikele periode. Voice Express, het product van L&H, of SpeechMagic van Philips, beschikten dan wel over continu-spraakherkenning, echter reageerden ook zij op elk geluid en vertaalde dit naar iets onbegrijpelijks. Naast veel lachsalvo’s waren de frustraties ook aanwezig. Met veel oefenen leverde het nog wel wat op. Maar veel oefenen, daar had niet iedereen tijd voor.

Tot voor enkele jaren terug werd steevast de verbinding verbroken wanneer ik een advocaat belde en het woord spraakherkenning in mijn mond nam. Sinds die startperiode is er veel veranderd en is de techniek verder ont-wikkeld. Oud zeer is er nog wel

Gebruikersafhankelijke en gebruikersonafhankelijke methode van spraakherkenning

Bij spraakherkenning is de stemherkenning van groot belang, deze bepaalt voor een groot deel de kwaliteit en tevredenheid. De stemherkenning is tevens afhankelijk van de methode. Er zijn grofweg twee methoden van stemherkenning.

De eerste methode is gebruikersonafhankelijke spraakherkenning, denk hierbij aan telefoondiensten waar we bijvoorbeeld met de stem doorgeven dat we de krant niet hebben ontvangen of in de auto waar we met de stem kunnen navigeren. De herkenning is zoals die zich voordoet. Willen we verbeteren dan kunnen we beter articuleren of leren te dicteren. De gebruikersonafhankelijke spraakherkenning kan zich technisch verbeteren door technische doorontwikkeling. Van correcties leert dit systeem niet.

De tweede methode is de gebruikersafhankelijke spraakherkenning, en daar gaat dit artikel over. De herkenbaarheid kan oplopen tot 99,5 % wanneer we de techniek begrijpen en daar naar handelen. Correcties aanbrengen en dus het systeem laten leren. Een zelflerend systeem.

Hoe haalt spraakherkenning zo’n hoge herkenbaarheid?

Niet iedere spraakherkenningssoftware is hetzelfde. De meest gebruikte software hanteert de volgende technieken: Allereerst moet het systeem uw stem leren herkennen. Daarvoor wordt een klein stukje tekst voorgelezen en een startherkenbaarheid bepaald. ‘Onder water’ wordt gekozen bij welke ‘blauwdruk’ stemprofiel u het beste past. Duizenden proefpersonen, vanuit alle windstreken, hebben uren teksten voorgelezen. Met en zonder dialect. Hele krantenartikelen. Zo’n proefpersoon wordt dus uw startprofiel. Zo zijn veel zogenaamde blauwdrukken ontwikkeld en kunt u met een hoge startherkenbaarheid beginnen. Bij elke nieuwe versie zien we hier verbeteringen in. Tijdens het dicteren herkent spraakherkenning, door correcties en goed gebruik, beter uw stem.

De rest is statistiek, of big data voor de liefhebber

Spraakherkenning houdt bij welke woorden worden gebruikt en deze woorden worden in een logfile geplaatst. Een standaard lexicon bestaat uit zo’n 250.000 woorden. Gemiddeld gebruikt een persoon 50.000 actieve woorden. Om de herkenbaarheid omhoog te krijgen, moet duidelijk zijn welke woorden de dicteerder het meest gebruikt. Alle gebruikte woorden worden per persoon opgeslagen in een zogenaamde logfile. Spraakherkenning zet klanken om in fonemen (betekenisonderscheidende klanken). Van deze fonemen worden diverse woorden gevormd. Verstaat spraakherkenning u onvoldoende, dan raadpleegt ze de logfile en geeft de voorkeur aan het meest gebruikte en vergelijkende woord. En niet alleen de woorden afzonderlijk, maar ook de combinatie van woorden, dus eigenlijk de persoonlijke schrijfstijl. De manier waarop u de woorden plaatst in een zin. Doordat de woorden gecombineerd worden, worden er geen schrijffouten meer gemaakt: hij wordt en ik word ‘horen’ bij elkaar. We noemen dit contextcontrole. Dit hele proces kunnen we optimaliseren, zelfs voordat u start, maar daar zal ik u niet mee lastigvallen. Wel belangrijk is een redelijk snelle computer om dit proces aan te kunnen. Uren oefenen is niet meer nodig dankzij de nieuwe technieken.

Welke methoden spraakherkenning zijn er nog meer?

Binnen de gebruikersafhankelijke methode zijn er verschillende systemen. Direct Input en Back-end Recognition of een combinatie van deze twee.

Direct dicteren bij de cursor en commando’s geven, noemen we Direct Input of Online Dicteren. Achteraf omzetten in tekst door middel van spraakherkenning noemen we Back-end of Server-side Recognition. Bij Direct Input wordt de software op een computer, laptop of server geïnstalleerd. Dicteren kan dan direct in bijvoorbeeld een dossier, Word, Outlook of waar de cursor ook maar staat. De woorden verschijnen op het scherm.

Back-end of Server-side dicteren is vooral geschikt voor juristen die niet zelf de teksten verwerken of veel onderweg zijn. Ze spreken in op een voicerecorder of beveiligde smartphone app. Het gesproken dictaat wordt verstuurd naar een server en daar omgezet in tekst. De tekst en het gesproken dictaat blijven op de server staan voor verwerking door de auteur zelf of de backoffice. Serverside dicteren wordt ook wel workflow genoemd. Een combinatie met andere workflows, bijvoorbeeld documentenworkflow, is mogelijk. Bij het inspreken op de beveiligde app, is zowel de ruwe als gecorrigeerde tekst zichtbaar. Dit geldt niet voor elk softwarepakket. Ieder product werkt weer net even anders. Elke jurist is uniek en kan voor een eigen werkmethode kiezen of een combinatie van alle mogelijkheden. Afhankelijk van specialisatie, netwerkomgeving, cloud en ondersteuning van de backoffice.

Medisch versus juridisch

Het ziekenhuis loopt dikwijls, in vergelijk met advocatenkantoren, voor op nieuwe en innovatieve ontwikkelingen. Logisch, met veel artsen en behandelaren is snel geld te besparen. Een ICT-afdeling of innovatieve werkgroep onderzoekt de mogelijkheden, een projectleider bestudeert de ROI (Return on Investment) en een pilot kan worden gestart. Artsen maakten al vroeg kennis met spraakherkenning. Soms betalen zij de aanschaf uit eigen budget. Juristen denken vaak dat medici anders zijn. Ik moet dit toch enigszins weerleggen. Ja, de woordenschat is anders maar de manier van dicteren en de hoeveelheid is vergelijkbaar.

Kwaliteit is van groot belang en het product moet het gewoon doen! Een GGZ-arts dicteert grote stukken tekst, een huisarts kleine aantekeningen, een behandelaar werkt op meerdere werkplekken. Communicatie verloopt steeds vaker via e-mail. Hetzelfde zien we terug in een juridische praktijk. Het wegwerken van e-mail en het dicteren van pleitnota’s, telefoonnotities afhandelen en het dicteren onderweg. Specifieke woorden, voor de uiteenlopende specialisaties en eigen woordenschat, worden vooraf toegevoegd. Een arts, voorheen met eigen secretaresse, moet tegenwoordig zelf zijn administratie verwerken. De verslaglegging is uitgebreider, accurater en inzichtelijk voor derden. Ook dit zien we terug bij juristen.

Welke verschillen zijn er dan wel?

Er is bij het ziekenhuis meer controle op de beveiliging van data, persoonsgegevens en NEN normen. Computernetwerken zijn ingewikkelder. Bewerkersovereenkomsten moeten worden getekend. Eenmaal gedicteerde teksten in een (patiënten)dossier, kunnen niet meer worden bewerkt en veranderd. Patiënten krijgen of hebben inzage in hun eigen dossier waardoor het dossier goed leesbaar en duidelijk moet zijn.

Juristen in de gezondheidzorg herkennen deze eisen en handelen daarnaar. Echter bij advocatenkantoren merk ik dat de beveiliging van data, vergeleken met de medische branche, nog wel eens achterloopt. Men gebruikt Public hosting om data te delen, via bijvoorbeeld Dropbox of Google Docs.

Mannen- versus vrouwenstemmen

Altijd een leuk onderwerp. Vrouwenstemmen worden beter herkend dan mannenstemmen. Hoe kan dit? Allereerst een uitleg over de stem. Spraak bestaat uit trillingen die door de stembanden worden gemaakt. De trillingen verlaten de keel, langs de tanden en wangen waardoor ze van vorm kunnen veranderen. Bijvoorbeeld door de stand van de mond te veranderen komen de klanken anders naar buiten. Het stoten van de trillingen tegen mond, tanden en wangen noemen we reflecties. Een vrouw heeft kortere stembanden en een kleiner mond-keelkanaal, waardoor de spraak van vrouwen anders is dan bij mannen, niet alleen hoger. Bij transgenders worden de stembanden wel eens ingekort om de zware stem te veranderen. De frequentie van een mannenstem ligt rond de 100 Hz, die van een vrouwenstem rond de 200 Hz en die van een Nederlandse kinderstem rond de 300 Hz. Het verschil is een octaaf. Hoe hoger de Frequentie (Hz) hoe beter het is voor spraakherkenning. Maar niet alleen de frequentie is van belang, ook de stemtaal. Stemtaal is de stemkwaliteit, intonatie, spreektoon, melodie, stemsterkte en de wisseling van deze aspecten.

Voor spraakherkenning is daarnaast ook de articulatie van belang. Vrouwen zijn hier net iets beter in en daardoor worden ze beter herkend door de spraakengine. Er zijn ook mannelijke advocaten waar weken achtereen 100% herkenbaarheid wordt gehaald. Door het zelflerend vermogen van de software wordt de stem toch uitstekend herkend en de kwaliteit verbetert door goed gebruik. Echter duurt de optimalisatieperiode iets langer bij mannen dan bij vrouwen, laten we zeggen, in plaats van 10 uur, 15 uur voordat de 99,5 % is bereikt.

Spraakherkenning op de smartphone

Wanneer ik bij een advocatenkantoor hoor dat Siri of Google of een ander pakket best bevalt, ondanks dat het geen juridische woorden herkent en niet echt professioneel werkt vraag ik me af of men ook op de hoogte is van de beveilgingsaspecten. Ook ik lees niet alle voorwaarden van elke app of instelling op mijn smartphone. Wat wel duidelijk is: Niets is voor niets! Wordt Siri aangezet op uw iPhone, dan wordt de beveiliging opgezegd. Alle namen van contacten worden gelezen en u geeft Apple toestemming deze te gebruiken voor commerciële doeleinden. Elk gesproken woord wordt op de server van Apple omgezet naar tekst. Verder hoef ik u niets meer te vertellen, neem ik aan. Ook bij gebruik van alleen kleine boodschappen naar het thuisfront, geeft u Apple toestemming om de rest van de smartphone te lezen en te gebruiken. Theoretisch? Wellicht, wel iets om rekening mee te houden.

Er zijn andere technieken om toch veilig te dicteren en de dictaten secure te verzenden en om te zetten in tekst. Het is belangrijk dat de dictaten de Nederlandse grens niet overschrijden omdat bij problemen de rechten van het land gelden.

Return on Investment (ROI)

Geen aanschaf meer zonder te weten wat het oplevert. Wanneer is de investering terugverdiend en gaat u winst maken of meer besparen?

Kantoren hebben nog wel eens producten aangeschaft, die uiteindelijk niet gebruikt werden. Was de aanschaf wellicht geen goede doordachte keuze, is er te weinig aandacht gegeven aan de juiste installatie, ontbrak een goede training of een bereikbare helpdesk? Test spraakherkenning eerst uit, neem diverse gebruikers met verschillende achtergronden en werkwijzen. Laat hen enkele weken dicteren met het product. Doorloop de testperiode met een 0-meting, een tussenmeting en een eindevaluatie.

En laat u goed informeren: Levert het echt op wat wordt beweerd? Verwachtte u dit resultaat? Is de training uitstekend en helpdesk toegankelijk? Werkt het binnen uw netwerk omgeving? Kunt u het koppelen aan documentenworkflow?

Even wat cijfers over de beste producten:

99.5% herkenbaarheid
3 keer sneller spreken dan typen
26% sneller met dicteren (n=1.455)
82% meer inhoud (n=1.455)
In vergelijking met traditioneel dicteren: 55% minder uitwerktijd voor de backoffice
ROI van 20 tot 27 dagen, afhankelijk van methode en product

Wat doet een auteur met meer tijd?

32% meer cliënten
29% kwaliteit verbeteren
27% gaat minder werken

Vergeet daarbij ook niet de ontlasting van het lichaam en de geest.

Wat gaat een secretaresse doen met 55% meer tijd?

Deze vraag is niet wetenschappelijk onderzocht. Echter in de praktijk zien we dat secretaresses andere taken aangereikt krijgen. Ze worden juridische medewerkers, gaan zich richten op online marketing, ondersteuning bij faillissementen, onderhouden van websites en regelen meer voor het kantoor in het algemeen.

Gebruik spraakherkenning onder juristen

We zien dat de jonge juristen niet bang zijn voor nieuwe technieken en deze inzetten om het werk te versnellen, de kwaliteit te verbeteren en meer focus te hebben op efficiency. Ze zijn gewend om met spraakherkenning te werken (denk alleen al aan spraakherkenning op de smartphone), ze dicteren eerder en met minder schroom. Nieuwe ontwikkelingen worden sneller opgepakt door deze jongeren. Dit is anders dan de ‘klassieke’ advocaten dachten. Deze redeneerde dat de jongeren sneller typten omdat ze zijn opgegroeid met de computer.

“Waarom zou je typen als je het ook kunt uitspreken?”

Voor medici en paramedici zijn meerdere wetenschappelijke onderzoeken uitgevoerd met betrekking tot het gebruik en de voordelen op de werkvloer. Deze cijfers zijn internationaal bekend en kunnen eenvoudig worden gekopieerd van andere Europese landen naar Nederland. Voor wat betreft het gebruik van spraakherkenning voor juridische omgevingen, bezit ik geen cijfers. Kunnen we de cijfers van medici zomaar doortrekken naar de juristen? Dat denk ik niet. Naast advocatenkantoren moeten we de rechtbanken, gemeenten, overheden en alle juridisch gelieerde bedrijven meenemen. Ook kent Nederland vele kleine kantoren en zelfstandigen. Juristen vind je overal. Ik kan alleen van mijn eigen ervaring uitgaan. Zo ondervind ik dat de laatste jaren steeds meer advocaten en notarissen geïnteresseerd zijn in spraakherkenning en ook daadwerkelijk deze producten aanschaffen. Secretaresses veranderen van functie binnen hetzelfde kantoor en/of zoeken een andere invulling. Kantoren worden opgesplitst in kleinere organisaties of een advocaat begint voor zichzelf. Ook in deze gevallen is spraakherkenning een oplossing om efficiënter te werken.

Toekomst van de spraakherkenning

Professionele documenten dicteren is nog wel iets wat ‘aangeleerd’ moet worden. Vaak wordt genoemd dat auteurs denken tijdens het typen. Wat ze eigenlijk doen is typen en daarna de tekst lezen en redigeren. De inspanning is tweemaal zo groot en de tijd

dubbel zo lang. Destijds, toen we de typemachine verruilden voor de tekstverwerker, namen we aan dat de kwaliteit van het document wel zou verbeteren, maar eigenlijk is deze juist achteruitgegaan.

Bij dicteren zijn we meer ‘to the point’ en worden de hoofd- en subdoelen duidelijker gescheiden. Met de ouderwetse typemachine zagen we hetzelfde principe, eerst nadenken en dan typen. Gelukkig is er een training ‘Leren Dicteren’, waar wordt ingegaan op het professioneel dicteren, niet alleen praten maar hoe maak je nu met de stem een professioneel stuk tekst. Geen spreektaal maar schrijftaal gebruiken. Voor zowel zonder als met spraakherkenning.

Meer informatie over de auteur: https://www.linkedin.com/in/godievierbergen

#NeedtoRead #InthePicture

LEGALBUSINESSWORLD | NL

Spraakherkenning. De evolutie naar een volwassen oplossing

Recent Posts

Comments