For adskillige årtier siden kunne videnskabsmænd kun drømme om at automatisere sproglig forskning. Arbejdet blev udført i hånden, et stort antal studerende var involveret i det, der var en betydelig sandsynlighed for en "uopmærksomhedsfejl", og vigtigst af alt tog det hele meget, meget tid.
Med udviklingen af computerteknologi blev det muligt at forske meget hurtigere, og i dag er et af de lovende områder inden for sprogstudiet korpuslingvistik. Dens hovedfunktion er brugen af store mængder tekstinformation, konsolideret i en enkelt database, markeret på en speciel måde og kaldet et korpus.
I dag er der mange korpus skabt til forskellige formål, baseret på forskelligt sprogmateriale, der dækker fra millioner til titusinder af leksikalske enheder. Denne retning er anerkendt som lovende og viser betydelige fremskridt med hensyn til at nå anvendte og forskningsmæssige mål. Fagfolk, på en eller anden måde beskæftiger sig mednaturligt sprog, anbefales det, at du som minimum sætter dig ind i tekstkorpus på et grundlæggende niveau.
Korpuslingvistiks historie
Dannelsen af denne retning er forbundet med oprettelsen af Brown Corps i USA i begyndelsen af 60'erne af forrige århundrede. Samlingen af tekster bestod kun af 1 million ordformer, og i dag ville et korpus af et sådant bind være fuldstændig ukonkurrencedygtigt. Dette skyldes i høj grad udviklingstempoet inden for computerteknologi samt den stigende efterspørgsel efter nye forskningsressourcer.
I 90'erne blev korpuslingvistik dannet til en fuldgyldig og selvstændig disciplin, tekstsamlinger blev samlet og markeret for flere dusin sprog. I denne periode blev for eksempel British National Corpus oprettet til 100 millioner ordbrug.
Efterhånden som denne sproglige retning udvikler sig, bliver mængden af tekster større (og når milliarder af ordforrådsenheder), og opmærkningen bliver mere og mere forskelligartet. I dag kan du på internettet finde korpus af skriftlig og mundtlig tale, flersproget og uddannelsesmæssig, fokuseret på skønlitteratur eller akademisk litteratur, såvel som mange andre varianter.
Hvilke sager er der
Korpustyper i korpuslingvistik kan repræsenteres på flere måder. Det er intuitivt klart, at grundlaget for klassificering kan være sproget i teksterne (russisk, tysk), adgangstilstand (åben kilde, lukket kilde, kommerciel), genre af kildematerialet (fiktion).litteratur, dokumentar, akademisk, journalistik).
På en interessant måde udføres genereringen af materialer, der repræsenterer mundtlig tale. Da den bevidste optagelse af en sådan tale ville skabe kunstige forhold for respondenterne, og det resulterende materiale ikke kunne kaldes "spontant", gik moderne korpuslingvistik den anden vej. Den frivillige er udstyret med mikrofon, og i løbet af dagen optages alle samtaler, som han deltager i. De omkringliggende mennesker kan selvfølgelig ikke vide, at de i løbet af en hverdagssamtale bidrager til videnskabens udvikling.
Senere gemmes de modtagne lydoptagelser i databanken og ledsages af trykt tekst som en transskription. På denne måde bliver den markup, der er nødvendig for at skabe et korpus af t alt daglig tale mulig.
Application
Hvor det er muligt at bruge sprog, er det også muligt at bruge tekstkorpus. Formålet med at bruge korpusmetoder i lingvistik kan være:
- Oprettelse af sentimentprogrammer, der er meget brugt i politik og erhvervsliv til at spore positiv og negativ feedback fra henholdsvis vælgere og kunder.
- Tilslutning af informationssystemet til ordbøger og oversættere for at forbedre deres ydeevne.
- Forskellige forskningsopgaver, der bidrager til forståelsen af sprogets struktur, historien om dets udvikling og forudsigelser om dets forandring i den nærmeste fremtid.
- Udvikling af informationsekstraktionssystemer baseret på morfologiske,syntaktiske, semantiske og andre funktioner.
- Optimering af arbejdet i forskellige sproglige systemer osv.
Using shells
Ressourcegrænsefladen ligner en typisk søgemaskine og beder brugeren om at indtaste et ord eller en kombination af ord for at søge i infobasen. Ud over den nøjagtige anmodningsformular kan du bruge den udvidede version, som giver dig mulighed for at finde tekstinformation ud fra næsten alle sproglige kriterier.
Grundlaget for søgningen kan være:
- tilhører en bestemt gruppe af orddele;
- grammatiske funktioner;
- semantik;
- stilistisk og følelsesmæssig farvelægning.
Du kan også kombinere søgekriterier for en række af ord: Find f.eks. alle forekomster af et verbum i nutid, første person, ental efterfulgt af præpositionen "in" og et substantiv i akkusativ kasus. At løse sådan en simpel opgave tager brugeren et par sekunder og kræver kun et par museklik i de givne felter.
Oprettelsesproces
Selve søgningen kan udføres både i alle underkorpuser og i et, specifikt udvalgt, afhængigt af behovene for at opnå et specifikt mål:
- Først og fremmest bestemmes det, hvilke tekster der skal danne grundlag for korpuset. Til praktiske formål bruges ofte journalistiske, avismaterialer, internetkommentarer. I forskningsprojekter, de flesteforskellige typer korpus, men teksterne skal vælges på et fælles grundlag.
- Det resulterende sæt af tekster er forbehandlet, eventuelle fejl rettes, en bibliografisk og ekstralingvistisk beskrivelse af teksten udarbejdes.
- Al ikke-tekstlig information er filtreret fra: grafik, billeder, tabeller slettes.
- Tokens, norm alt ord, tildeles til yderligere behandling.
- Til sidst udføres morfologisk, syntaktisk og anden opmærkning af det resulterende sæt af elementer.
Resultatet af alle udførte operationer er en syntaktisk struktur med et sæt elementer fordelt over sig, for hver af disse er en del af tale, grammatiske og i nogle tilfælde semantiske træk defineret.
Vanskeligheder med at oprette sager
Det er vigtigt at forstå, at for at få et korpus er det ikke nok at sammensætte en masse ord eller sætninger. På den ene side skal en tekstsamling være afbalanceret, det vil sige præsentere forskellige typer tekster i bestemte proportioner. Til gengæld skal sagens indhold markeres på en særlig måde.
Det første problem løses efter aftale: for eksempel omfatter samlingen 60 % af skønlitterære tekster, 20 % af dokumentarer, en vis andel gives til skriftlig præsentation af mundtlig tale, lovgivningsmæssige retsakter, videnskabelige artikler osv. Den ideelle opskrift på et afbalanceret korpus eksisterer ikke i dag.
Det andet spørgsmål vedrørende indholdsopmærkning er sværere at løse. Der er specielle programmer og algoritmer, der bruges til automatisk opmærkning af tekster, men de giver ikke et 100% resultat, kan forårsage fejl og kræver manuel forfining. Muligheder og problemer med at løse dette problem er beskrevet detaljeret i V. P. Zakharovs arbejde om korpuslingvistik.
Tekstmarkering udføres på flere niveauer, som vi vil liste nedenfor.
Morfologisk markup
Fra skolebænken husker vi, at der i det russiske sprog er forskellige dele af tale, og hver af dem har sine egne karakteristika. For eksempel har et verbum kategorier af stemning og spænding, som et substantiv ikke har. En taler som modersmål afviser navneord og konjugerer verber uden tøven, men manuelt arbejde er ikke egnet til at markere et korpus på 100 millioner ordbrug. Alle de nødvendige handlinger kan udføres af en computer, men for dette skal den læres.
Morfologisk opmærkning er nødvendig for, at computeren kan "forstå" hvert ord som en del af talen, der har visse grammatiske træk. Da en række almindelige regler fungerer på russisk (som i ethvert andet) sprog, er det muligt at bygge en automatisk procedure til morfologisk analyse ved at sætte en række algoritmer ind i maskinen. Der er dog undtagelser fra reglen, samt forskellige komplicerende faktorer. Som følge heraf er ren computeranalyse i dag langt fra ideel, og selv 4 % fejl giver en værdi på 4 millioner ord i et korpus på 100 millioner enheder, hvilket kræver manuel forfining.
Dette problem er beskrevet detaljeret af V. P. Zakharovs bog "Corpus Linguistics".
Syntaktisk markup
Syntaktisk analyse eller parsing er en procedure, der bestemmer forholdet mellem ord i en sætning. Ved hjælp af et sæt algoritmer bliver det muligt at bestemme emnet, prædikatet, tilføjelser og forskellige taleomdrejninger i teksten. Ved at finde ud af, hvilke ord i rækkefølgen der er hovedord, og hvilke der er afhængige, kan vi effektivt udtrække information fra teksten og træne maskinen til kun at returnere den information, vi er interesseret i som svar på en søgeanmodning.
Moderne søgemaskiner bruger i øvrigt dette til at give specifikke tal i stedet for lange tekster som svar på relevante forespørgsler som: "hvor mange kalorier er der i et æble" eller "afstand fra Moskva til Skt. Petersborg". Men for at forstå selv det helt grundlæggende i den beskrevne proces, skal du gøre dig bekendt med "Introduktion til Corpus Linguistics" eller en anden grundlæggende lærebog.
Semantisk markup
Et ords semantik er i enkle vendinger dets betydning. En bredt anvendelig tilgang i semantisk analyse er tilskrivningen af tags til et ord, hvilket afspejler dets tilhørsforhold til et sæt af semantiske kategorier og underkategorier. Sådanne oplysninger er værdifulde til at optimere tekstsentimentanalysealgoritmer, automatisk reference og udføre andre opgaver ved brug af korpuslingvistiske metoder.
Der er en række "rødder" af træet, som er abstrakte ord, der harmeget bred semantik. Efterhånden som dette træ forgrener sig, dannes der noder, der indeholder flere og mere specifikke leksikalske elementer. For eksempel kan ordet "skabning" forbindes med begreber som "menneske" og "dyr". Det første ord vil fortsætte med at forgrene sig til forskellige erhverv, slægtskabsforhold, nationalitet og det andet - i klasser og typer af dyr.
Brug af informationssøgningssystemer
Anvendelsessfærer for korpuslingvistik dækker en bred vifte af aktivitetsområder. Corpora bruges til at kompilere og rette ordbøger, skabe automatiske oversættelsessystemer, opsummere, uddrage fakta, bestemme følelser og anden tekstbehandling.
Derudover bruges sådanne ressourcer aktivt i studiet af verdens sprog og mekanismerne for sprogets funktion som helhed. Adgang til store mængder af forberedt information bidrager til den hurtige og omfattende undersøgelse af tendenser i udviklingen af sprog, dannelsen af neologismer og stabile talevendinger, ændringer i betydningen af leksikalske enheder osv.
Fordi arbejdet med så store datamængder kræver automatisering, er der i dag et tæt samspil mellem computer- og korpuslingvistik.
Det russiske sprogs nationale korpus
Dette korpus (forkortet til NKRC) omfatter en række underkorpuser, der gør det muligt at bruge ressourcen til at løse en lang række opgaver.
Materialer i NCRA-databasen er opdelt i:
- om publikationer i medierne fra 90'erne og 2000'erneår, både indenlandske og udenlandske;
- optagelser af mundtlig tale;
- accentologisk markerede tekster (dvs. med accenttegn);
- dialekttale;
- poetiske værker;
- materialer med syntaktisk opmærkning osv.
Informationssystemet omfatter også underkorpuser med parallelle oversættelser af værker fra russisk til engelsk, tysk, fransk og mange andre sprog (og omvendt).
Også har databasen en sektion af historiske tekster, der repræsenterer skriftlig tale på russisk i forskellige perioder af dens udvikling. Der er også et træningskorpus, der kan være nyttigt for udenlandske statsborgere til at mestre det russiske sprog.
Det russiske sprogs nationale korpus omfatter 400 millioner leksikale enheder og er på mange måder foran en betydelig del af korpus af europæiske sprog.
Prospects
En kendsgerning til fordel for at anerkende dette område som lovende er tilstedeværelsen af korpuslingvistiske laboratorier på russiske universiteter såvel som på udenlandske. Med brugen og forskningen inden for rammerne af de overvejede informationssøgningsressourcer, er udviklingen af nogle områder inden for højteknologiske spørgsmål-svar-systemer forbundet, men dette blev diskuteret ovenfor.
Yderligere udvikling af korpuslingvistik forudsiges på alle niveauer, lige fra teknisk, hvad angår introduktionen af nye algoritmer, der optimerer processerne til søgning og behandling af information, udvidelse af computers muligheder, øger den operationellehukommelse og slutter med husholdningsbrug, efterhånden som brugerne finder flere og flere måder at bruge denne type ressource på i hverdagen og på arbejdet.
Afslutningsvis
I midten af forrige århundrede virkede 2017 som en fjern fremtid, hvor rumfartøjer surfer på universets vidder, og robotter gør alt arbejdet for mennesker. I virkeligheden er videnskaben imidlertid fyldt med "blanke pletter" og gør desperate forsøg på at besvare spørgsmål, der har bekymret menneskeheden i århundreder. Spørgsmål om sprogets funktion spiller en ære i her, og korpus- og datalingvistik kan hjælpe os med at besvare dem.
Behandling af store mængder data giver dig mulighed for at opdage mønstre, der tidligere var utilgængelige, forudsige udviklingen af visse sprogfunktioner, spore dannelsen af ord næsten i re altid.
På et praktisk glob alt niveau kan korpora for eksempel betragtes som et potentielt værktøj til at vurdere offentlighedens følelser - Internettet er en løbende opdateret database med forskellige tekster skabt af rigtige brugere: disse er kommentarer, anmeldelser, artikler, og mange andre former for tale.
Derudover bidrager arbejdet med corpora til udviklingen af de samme tekniske midler, som er involveret i informationssøgning, som vi kender fra Google eller Yandex-tjenester, maskinoversættelse, elektroniske ordbøger.
Det er sikkert at sige, at korpuslingvistik kun tager sine første skridt og vil udvikle sig hurtigt i den nærmeste fremtid.