Begrip van natuurlijke taal

Natural language understanding is een onderdeel van natural language processing in de artificiële intelligentie dat zich bezig houdt met machinaal begrijpen van teksten.

Het proces van ontrafelen en verwerken van input is complexer dan het omgekeerde proces waarbij een tekst gegenereerd moet worden (natural language generation). Het is moeilijker omdat er ongekende en onverwachte eigenschappen in de input kunnen aanwezig zijn en de nood om de juiste syntactische en semantische schema’s daarbij af te leiden. Syntactische en semantische schema’s zijn vooraf bepaald wanneer men in een bepaalde taal gaat schrijven.

Natural language understanding verkrijgt hoge commerciële interesse omdat men het kan toepassen bij nieuwsverzamelen, teksten categoriseren, stemactivatie, archiveren en data analyse op grote schaal.

Scope en context

De overkoepelende term “natural language understanding” kan toegepast worden bij een diverse verzameling aan computer toepassingen. Natural language understanding programma’s kunnen gaan van kleine computer toepassingen die relatief simpele taken uitvoeren zoals korte commando’s die een robot aansturen tot vrij complexe toepassingen die een volledige krant proberen begrijpen of de betekenis achter gedichten proberen te ontcijferen. Vele hedendaagse applicaties bevinden zich tussen de twee extremen, bv. Tekstclassificatie voor automatische analyse van e-mail en het routeren naar een geschikt departement binnen een bedrijf vereist geen al te diepgaan begrip van de inhoud, maar het is echter veel complexer dan het managen van simpele queries op databank tabellen met vastgelegde schemata.

Door de jaren heen werden er verschillende pogingen gedaan om natuurlijke taal die aan computers gerepresenteerd werd te verwerken met verschillende graden van complexiteit. Sommige systemen resulteerden niet in diep begrip van de input maar bevorderden de algemene bruikbaarheid van het systeem. Bijvoorbeeld, Wayne Ratliff ontwikkelde het originele Vulcan programma met een Engelse syntax voor het imiteren van de Engels sprekende computer in Star Trek. Vulcan werd later het dBase systeem dewelke zijn eenvoudige syntax de persoonlijke computer database industrie lanceerde. Systemen met eenvoudig te gebruiken Engelse syntax onderscheiden zich echter van systemen die een rijk lexicon en een interne semantische representatie (vaak eerste orde logica) gebruiken.

De breedte en de diepte van “begrip” die men binnen een systeem wenst te implementeren, bepalen de complexiteit van het systeem en het soort toepassingen waarvoor men het kan gebruiken. De “breedte” van een systeem wordt gemeten door de grootte van het vocabularium en de grammatica. Anderzijds, wordt de “diepte” van het systeem bepaalde door de graad waarmee het systeem kan begrijpen zoals mensen dat kunnen. Een smal en ondiep systeem representeert m.a.w. een eenvoudige systeem dat een beperkt aantal toepassingen heeft. Een smal en diep systeem exploreren en modelleren de mechanismen van begrip maar hebben nog steeds een beperkte toepassing. Systemen die proberen om inhoud van documenten zoals nieuwsberichten te begrijpen en te beoordelen als die relevant zijn voor een gebruiker waarbij meer dan alleen kernwoorden worden vergeleken, vereisten al een significante complexiteit maar zijn nog steeds vrij ondiep. Systemen die zeer breed en diep zijn gaan voorbij de huidige stand van de wetenschap.

Componenten en architectuur

Onafhankelijk van de aanpak die men gebruikt, kan men de vaak voorkomende componenten binnen natural language understanding systemen identificeren. Het systeem heeft een lexicon nodig in een bepaalde taal, een omvormer (parser) en grammaticaregels om de zinnen om te vormen in een interne representatie. De constructie van een rijk lexicon met een gepaste ontologie vereist hoge inspanningen, b.v. Het Wordnet lexicon heeft meerdere persoon-jaren gekost.

Het systeem heeft ook een semantische theorie nodig om het begrip te begeleiden. De interpretatiecapaciteiten van een taal begrijpend systeem zijn afhankelijk van de semantische theorie die het gebruikt. Concurrerende semantische theorieën voor taal hebben specifieke afwegingen in hun bruikbaarheid als basis voor computer geautomatiseerde semantische interpretatie. Semantische theorieën gaan van naïve semantiek of stochastische semantische analyse tot het gebruik van pragmatiek voor het afleiden van betekenis uit de context.

Geavanceerde toepassingen van natural language understanding proberen om logische gevolgtrekking te gebruiken binnen hun raamwerk. Dit wordt in het algemeen verwezenlijkt door het mappen van afgeleide betekenis in een verzameling van bewerkingen in predicaten logica, waarna men logische deductie gebruikt om conclusies te trekken. Systemen die gebaseerd zijn op functionele talen zoals Lisp moeten dus een subsysteem importeren voor het representeren van logische beweringen, terwijl logica georiënteerde systemen zoals systemen geschreven in Prolog over het algemeen steunen op een uitbreiding van het ingebouwde logische representatie raamwerk.

Het beheren van context in natural language understanding kan een bijzondere uitdaging vormen. Een grote variëteit aan voorbeelden en tegenvoorbeelden hebben geresulteerd in verschillende aanpakken om de context formeel te modelleren, elk met zijn specifieke sterkten en zwakten.

Bronnen, noten en/of referenties

Bronnen, noten en/of referenties

Intertaalkoppelingen via Wikidata (via reasonator)

Begrip van natuurlijke taal

Scope en context

Componenten en architectuur

Bronnen, noten en/of referenties

Navigatiemenu

Zoeken