Frekvenstekstanalyse: funktioner og eksempler

Indholdsfortegnelse:

Frekvenstekstanalyse: funktioner og eksempler
Frekvenstekstanalyse: funktioner og eksempler
Anonim

Du har mødt dette koncept mere end én gang i dit liv, hvis du skulle arbejde med tekster. Du kan især henvende dig til online-beregnere, der udfører præcis frekvensanalysen af teksten. Disse praktiske værktøjer viser, hvor mange gange et bestemt tegn eller bogstav forekommer i en tekstpassage. Ofte vises også en procentdel. Hvorfor er dette nødvendigt? Hvordan bidrager frekvensanalyse af tekst til "knækning" af simple cifre? Hvad er dens essens, hvem opfandt den? Vi vil besvare disse og andre vigtige spørgsmål om emnet i løbet af artiklen.

Definition

Frekvensanalyse er en af varianterne af kryptoanalyse. Den er baseret på videnskabsmænds antagelse om eksistensen af en statistisk ikke-triviel fordeling af individuelle karakterer og deres regulære sekvenser i både almindelig tekst og krypteret tekst.

Det menes, at en sådan distribution, op til udskiftning af individuelle tegn, også vil blive bevaret i krypterings-/dekrypteringsprocesserne.

frekvensanalyse af systemer
frekvensanalyse af systemer

Proceskarakteristik

Lad os nu tage et kig på frekvensanalyse i enkle vendinger. Dette indebærer, at antallet af forekomster af samme alfabetiske karakter i tekster af tilstrækkelig længde er det samme i forskellige tekster skrevet på samme sprog.

Og hvad nu med monoalfabetisk kryptering? Det antages, at hvis der er et tegn med en sådan ens sandsynlighed for forekomst i afsnittet med chiffertekst, så er det realistisk at antage, at det er det krypterede bogstav.

Følgere af frekvenstekstanalyse anvender samme ræsonnement på digramme (sekvenser af to bogstaver). Trigrammer - dette er for tilfældet med allerede polyalfabetiske cifre.

Metodens historie

Frekvensanalyse af ord er ikke et fund af modernitet. Det har været kendt af den videnskabelige verden siden det 9. århundrede. Dens oprettelse er forbundet med navnet Al-Kindi.

Men de kendte tilfælde af anvendelse af metoden til frekvensanalyse tilhører en meget senere periode. Det mest slående eksempel her er dechiffreringen af egyptiske hieroglyffer, fremstillet i 1822 af J.-F. Champollion.

Hvis vi vender os til fiktion, kan vi finde mange interessante referencer til denne dekrypteringsmetode:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Children of Captain Grant".
  • Edgar Poe - "Gold Bug".

Men siden midten af forrige århundrede er de fleste af de algoritmer, der bruges til kryptering, blevet udviklet under hensyntagen til deres modstand mod en sådan frekvenskrypteringsanalyse. Derfor deti dag bruges de oftest kun til træning af fremtidige kryptografer.

tekst frekvens analyse
tekst frekvens analyse

Grundlæggende metode

Lad os nu præsentere frekvensresponsanalysen i detaljer. Denne form for analyse er direkte baseret på det faktum, at testen består af ord, og dem til gengæld af bogstaver. Antallet af bogstaver, der fylder de nationale alfabeter, er begrænset. Bogstaver kan blot anføres her.

De vigtigste egenskaber ved en sådan tekst vil være både gentagelsen af bogstaver, forskellige bigrammer, trigrammer og n-gram, samt kompatibiliteten af forskellige bogstaver med hinanden, vekslen af konsonanter/vokaler og andet varianter af disse symboler.

Hovedidéen med metoderne er at tælle forekomster af mulige n-gram (angivet med nm) i klartekster længe nok til analyse (angivet med T=t1t2…tl) sammensat af bogstaver i det nationale alfabet (angivet med {a1, a2, …, an}). Alt ovenstående forårsager nogle på hinanden følgende m-gram af teksten:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Hvis dette er antallet af forekomster af m-gram ai1ai2…sigtet i en bestemt tekst T, og L er det samlede antal m-gram analyseret af forskeren, så er det muligt at fastslå empirisk, at for tilstrækkelig stor L, vil frekvenserne for sådan et m-gram være lidt forskellige fra hinanden.

frekvensanalyse
frekvensanalyse

Hyppigt forekommende bogstaver i det russiske alfabet

Men tids-frekvensanalyse, på trods af det lignende navn, har intet at gøre med emnet for vores samtale. Denne form for analyse udføres forsignaler fra lav-observerbare radarstationer ved hjælp af en speciel wavelet-transformation.

Lad os nu vende tilbage til hovedemnet. Når du foretager en frekvensanalyse, kan du finde ud af, hvilke bogstaver i det russiske alfabet, der oftest findes i ret omfangsrige tekster (procent fra 0,062 til 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Selv en særlig mnemonisk regel er blevet indført, som hjælper med at lære de mest almindelige bogstaver i det russiske alfabet. For at gøre dette er det nok kun at huske ét ord - "høloft".

I almindelige tilfælde er hyppigheden af brug af bogstaver i procenter sat enkelt: specialisten tæller, hvor mange gange bogstavet forekommer i teksten, og dividerer derefter den resulterende værdi med det samlede antal tegn i teksten. Og for at udtrykke denne værdi som en procentdel, er det nok at gange den med 100.

Det er vigtigt at overveje, at frekvensen ikke kun afhænger af tekstens volumen, men også af dens natur. For eksempel forekommer bogstavet "F" i tekniske kilder meget oftere end i fiktion. For at opnå objektive resultater skal en specialist derfor skrive tekster af forskellig art og stil til forskning.

programmer for tekstfrekvensanalyse
programmer for tekstfrekvensanalyse

Bi-, tri-, fire-grams

I meningsfulde tekster kan du også finde de mest almindelige (henholdsvis de mestgentaget) kombinationer af to eller flere bogstaver. Specialister har også udarbejdet adskillige tabeller, som angiver frekvenserne af lignende digramme i forskellige alfabeter.

Med hensyn til russisk gjorde frekvensanalysen af systemer med omfangsrige meningsfulde tekster det muligt at etablere de mest almindelige bigrammer og trigrammer:

  • DA.
  • ST.
  • MEN.
  • NOT.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NY
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Foretrukne forhold mellem bogstaver til hinanden

Og det er ikke alle de muligheder, som frekvensanalyse kan give tekstforskere. Ved at systematisere information fra lignende tabeller over bigrammer og trigrammer er det muligt at udtrække data om de mest almindelige kombinationer af bogstaver. Eller med andre ord deres foretrukne forhold til hinanden.

En sådan omfattende undersøgelse er allerede blevet udført af eksperter. Resultatet var en tabel, hvor dens naboer blev angivet sammen med hvert bogstav i alfabetet. Desuden de karakterer, der ofte findes både umiddelbart før og efter det. Bogstaverne i tabellen er ikke stavet tilfældigt. Tættere på symbolet er de hyppigste naboer angivet, yderligere - mere sjældne.

Overvej eksempler:

  • Brev "A". Her skelnes følgende foretrukne forbindelser: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Herfra ser vi, at der oftest før "A" i teksterne er "H" ("NA"). Og efter "A" oftest i tekster på russisk kan vi møde "L"("AL").
  • Brev "M". Eksperter har identificeret sådanne foretrukne forbindelser: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Brev "b". Foretrukne forbindelser er som følger: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Brevet "Sh". Foretrukne forbindelser: "e-b-a-i-u-Sch-e-i-a".
  • Brev "P". Foretrukne forbindelser med dette symbol på det russiske alfabet: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
tids-frekvens analyse
tids-frekvens analyse

Hvad definerer analyse?

Moderne frekvenstekstanalyseprogrammer hjælper med at studere store mængder af en lang række artikler, essays, passager og så videre. Følgende oplysninger leveres til forskeren som standard:

  • Samlet antal tegn i teksten.
  • Antal mellemrum brugt af forfatteren.
  • Antal cifre.
  • Oplysninger om brugte tegnsætningstegn - punktum, kommaer osv.
  • Antallet af bogstaver i hvert af de tilgængelige alfabeter - kyrillisk, latin, osv.
  • Oplysninger om brugshyppigheden af hvert bogstav og symbol i teksten - antallet af omtaler og procent i forhold til hele teksten.

Kamp mod overoptimering og overmætning

Hvorfor udføres tekstfrekvensanalyse? Er det blot for nysgerrighedens formål - at fastslå, hvilke tegn i den skrevne tekst, der viste sig at være hyppigt stødt på? Nej, analysens hovedanvendelse er praktisk, og den ligger andre steder.

N-gram inkluderer ikke kun stabile bigrammer og trigrammer. Til det sammekategorier omfatter nøgleord (tags), samlokaliseringer. Det vil sige stabile kombinationer bestående af to eller flere ord. De udmærker sig ved, at sådanne sammensætninger forekommer sammen i teksten og samtidig bærer en vis semantisk belastning.

Dette spiller i hænderne på skrupelløse SEO-specialister. I deres arbejde misbruger de nogle gange gentagelsen af tags og nøgleord i teksten for kunstigt at øge relevansen af en bestemt webside. De forsøger at bedrage systemet med et sådant "trick": at gøre en naturlig kombination med den sædvanlige kombination af ord, traditionel for det russiske sprog ("køb en minkfrakke") til en inkonsekvent. Det vil sige opnået ved at omarrangere ord i et så naturligt N-gram ("køb en minkfrakke").

Men i dag har søgealgoritmer lært at detektere overoptimering lige så effektivt som overspam – overmætning af tekst med søgeord, tags, der påvirker rangeringen af resultater på søgesiden. Overoptimerede sider er nu tværtimod placeret lavere af brugerens forespørgsel. Og folk har ikke selv tendens til at læse meningsløst, overmættet med tags-tekst, og foretrækker nyttig information på en anden ressource.

frekvensanalysemetode
frekvensanalysemetode

Hjælper privat analyse for SEO-specialister

Således giver moderne søgemaskinetekstfiltre i dag fortrinsret til de internetsider, hvis information ikke kun er let at læse, men også nyttig for besøgende. For at optimere deres arbejde til nye standarder, SEO-specialisterog vend dig til frekvensanalysen af teksten. Mange populære tjenester leverer det i dag.

Frekvensanalyse hjælper med at gennemgå den tekst, der er ved at blive klargjort til udgivelse, med henblik på informativitet. Eliminer unødvendig redundans af tags og nøglesætninger. Det giver dig også mulighed for at henlede forfatterens opmærksomhed på unaturlige kombinationer af ord, der vækker mistanke i søgemaskinernes tekstfiltre.

frekvensresponsanalyse
frekvensresponsanalyse

Frekvensanalyse af teksten hjælper således med at bestemme hyppigheden af omtale af en bestemt karakter i kilden. Metoden bruges i dag til at vurdere tekstoverbelastning med tags, unaturlige permutationer af ord.

Anbefalede: