Nyheter‎ > ‎

Intelligent stavningskontroll – tar uttalsregler och sammanhang i beaktande för att ge en så bra användarupplevelse som möjligt

skickad 13 aug. 2018 06:13 av Martin Tiberg

Jag berättade i ett tidigare inlägg om Lingsofts utvecklingsarbete i projektet “Digitalisering av SFI” (DIGSFI). I samarbete med Invigos och Hermods anpassar vi Lingsofts språkkontroller för att passa vuxna elever med svenska som andraspråk inom utbildning i svenska för invandrare (SFI) samt grundläggande och gymnasial vuxenutbildning.

I det här inlägget vill jag berätta lite närmare om hur vår stavningskontroll fungerar och hur vi utvecklar den vidare under projektet.

En traditionell stavningskontroll kontrollerar ifall de ord som finns i en text existerar i ett rättstavningslexikon. Om ordet existerar i lexikonet, är det alltså ett korrekt stavat ord, och ingen markering ges. Ifall ordet inte finns i lexikonet, är det möjligtvis fråga om ett stavfel, och skribenten görs uppmärksam på detta med en markering och eventuella förslag på korrigeringar. Lingsofts stavningskontroll hanterar också böjda ordformer utan problem.

Hantering av sammansatta ord är extremt viktigt för att kunna analysera en svensk text. I svenska är det ju möjligt att skapa nya ord genom att slå ihop två eller flera ord (några exempel på detta från Språkrådets nyordslista för 2017: expresskidnappning, blockkedja). Antalet svenska ord är alltså i teorin obegränsat, varför det vore omöjligt att skapa en uttömmande lista med alla tänkbara sammansatta ord.

En av de största styrkorna med Lingsofts språkkontroller är därför att de från första början har haft inbyggd analys av sammansatta ord. Så länge som de ord det sammansatta ordet består av finns i lexikonet, känner språkkontrollen igen att det är fråga om ett sammansatt ord och kan analysera både ordet som helhet och de mindre beståndsdelarna.

Minst lika viktigt för användarupplevelsen är att stavningskontrollen ger vettiga förslag på korrigering, och detta är ännu viktigare inom SFI där skribenten inte nödvändigtvis behärskar svenska så pass bra att hen på egen hand kan korrigera stavfel. Därför har vi på Lingsoft lagt extra betoning inom projektet på att korrigeringsförslagen ska vara så bra som möjligt.

Korrigeringsförslagen i en traditionell språkkontroll brukar vara ord eller namn som finns i lexikonet och som ligger en eller två bokstäver ifrån det felstavade ordet. Ju större bokstavsskillnad man tillåter, desto flera tänkbara korrigeringsförslag får man, vilket inte nödvändigtvis är bra från ett användarperspektiv då det lätt kan innebära en lång rad med förslag som inte är relevanta.

Å andra sidan kan de stavfel man gör ligga ganska långt ifrån hur ordet egentligen stavas, vilket kan innebära att man inte får några korrigeringsförslag överhuvudtaget. Detta kan exempelvis inträffa om man försöker stava ett ord utgående från dess uttal (tänk exempelvis *shurnal istället för journal eller *tjåsk istället för kiosk), vilket är svårt får en traditionell stavningskontroll att hantera. Får att råda bot på detta har vi utvecklat en funktion i stavningskontrollen som använder sig av svenska uttalsregler för att hitta lämpliga korrigeringsförslag. En annan feltyp, som är särskilt vanlig för personer med arabiska som modersmål, är att man förväxlar vokaler eller utelämnar dem helt (i arabisk skrift skriver man enbart konsonanterna). Vår språkkontroll har inbyggt stöd för att hantera detta och kan känna igen vilken den korrekta stavningen är även om man förväxlat alla vokaler i ordet.

Om stavningskontrollen bara kontrollerar enskilda ord och inte om ordet är korrekt i sammanhang missar den många problem; exempelvis skulle stavningskontrollen inte notera stavfelet i jag *eter gröt om man inte ser på sammanhanget (eter är i sig ett giltigt svenskt ord, det är bara i sammanhanget det framgår att det är fråga om ett stavfel). Så kallad kontextbaserad stavningskontroll är därför också viktigt för en bra användarupplevelse. Jag kommer att berätta mer om detta i ett framtida inlägg!

Michael Stormbom
Key Account Manager, Lingsoft
michael.stormbom@lingsoft.se

Lingsoft utvecklar språktjänster och olika slags språkteknologier för såväl text som tal. Bland annat har vi levererat språkkontroller till Microsoft och många svenska dagstidningar under många år. Bland våra senaste projekt finns ett system som automatiskt bevakar EU-lagstiftning och med vars hjälp vi skriver sammanfattningar av lagstiftning för EU:s räkning. För mer information om oss, besök vår hemsida på www.lingsoft.se
Comments