Data Mining er Koncept, algoritmeanalyse, formål og anvendelse

Indholdsfortegnelse:

Data Mining er Koncept, algoritmeanalyse, formål og anvendelse
Data Mining er Koncept, algoritmeanalyse, formål og anvendelse
Anonim

Udviklingen af informationsteknologi giver praktiske resultater. Men opgaver som at finde, analysere og bruge information har endnu ikke fået et effektivt værktøj af høj kvalitet. Der er analytiske og kvantitative værktøjer, de virker virkelig. Men en kvalitativ revolution i brugen af information er ikke sket endnu.

Længe før computerteknologiens fremkomst havde en person behov for at behandle store mængder information og klarede dette efter bedste erfaring og tilgængelige tekniske muligheder.

Udviklingen af viden og færdigheder har altid opfyldt reelle behov og svaret til aktuelle opgaver. Data mining er et fællesnavn, der bruges til at henvise til et sæt metoder til at opdage tidligere ukendt, ikke-triviel, praktisk nyttig og tilgængelig viden i data, der er nødvendig for at træffe beslutninger inden for forskellige områder af menneskelig aktivitet.

Menneske, intelligens, programmering

En person ved altid, hvordan man handler i enhver situation. Uvidenhed eller en ukendt situation forhindrer ham ikke i at træffe en beslutning. Der kan stilles spørgsmålstegn ved objektiviteten og rimeligheden af enhver menneskelig beslutning, men den vil blive accepteret.

Intelligens er baseret på: arvelig "mekanisme", erhvervet, aktiv viden. Viden anvendes til at løse problemer, der opstår før en person.

  1. Intelligence er et unikt sæt af viden og færdigheder: muligheder og grundlag for menneskeliv og arbejde.
  2. Intelligens udvikler sig konstant, og menneskelige handlinger har indflydelse på andre mennesker.

Programmering er det første forsøg på at formalisere repræsentationen af data og processen med at skabe algoritmer.

Mand, intelligens, programmering
Mand, intelligens, programmering

Kunstig intelligens (AI) er spild af tid og ressourcer, men resultaterne af mislykkede forsøg fra det sidste århundrede inden for AI forblev i hukommelsen, blev brugt i forskellige ekspertsystemer (intelligente) og blev transformeret, især i algoritmer (regler) og matematisk (logisk) dataanalyse og Data Mining.

Information og den sædvanlige søgen efter en løsning

Et almindeligt bibliotek er et opbevaringssted for viden, og det trykte ord og grafikken har endnu ikke givet håndfladen til computerteknologi. Bøger om fysik, kemi, teoretisk mekanik, design, naturhistorie, filosofi, naturvidenskab, botanik, lærebøger, monografier, videnskabsmænds værker, konferencematerialer, rapporter om udviklingsarbejde osv. er altid relevante og pålidelige.

Bibliotek er en masse forskellige kilder, der er forskelligeform for præsentation af materiale, oprindelse, struktur, indhold, præsentationsstil osv.

Bibliotek: bøger, blade og andre tryksager
Bibliotek: bøger, blade og andre tryksager

Udvendigt er alt synligt (læsbart, tilgængeligt) til forståelse og brug. Du kan løse ethvert problem, indstille opgaven korrekt, begrunde løsningen, skrive et essay eller semesteropgave, vælge materiale til et diplom, analysere kilder om emnet for en afhandling eller en videnskabelig og analytisk rapport.

Ethvert informationsproblem kan løses. Med behørig vedholdenhed og dygtighed opnås et nøjagtigt og pålideligt resultat. I denne sammenhæng er Data Mining en helt anden tilgang.

Ud over resultatet modtager en person "aktive links" til alt, hvad der blev set i processen med at nå målet. De kilder, han brugte til at løse problemet, kan henvises til, og ingen vil bestride, at kilden eksisterer. Dette er ikke en garanti for ægthed, men det er et sikkert vidnesbyrd til hvem ansvaret for ægtheden er "afmeldt". Fra dette synspunkt betyder Data Mining stor tvivl om pålideligheden og ingen "aktive" links.

Ved at løse flere problemer opnår en person resultater og udvider sit intellektuelle potentiale til mange "aktive links". Hvis en ny opgave "aktiverer" et allerede eksisterende link, vil personen vide, hvordan man løser det: der er ingen grund til at søge efter noget igen.

"Aktivt link" er en fast sammenhæng: hvordan og hvad skal man gøre i et bestemt tilfælde. Den menneskelige hjerne husker automatisk alt, hvad der forekommer den potentielt interessant, nyttigt.eller sandsynligvis blive nødvendige i fremtiden. På mange måder sker dette på et underbevidst plan, men så snart der opstår en opgave, der kan forbindes med et "aktivt link", dukker den øjeblikkeligt op i sindet, og en løsning vil blive fundet uden yderligere informationssøgning. Data Mining er altid en gentagelse af søgealgoritmen, og denne algoritme ændres ikke.

Almindelig søgning: "kunstneriske" problemer

Matematikbibliotek og søgning efter information i det er en relativt svag opgave. At finde på den ene eller anden måde at løse et integral på, bygge en matrix eller udføre operationen med at lægge to imaginære tal til er besværligt, men enkelt. Du skal sortere i en række bøger, hvoraf mange er skrevet på et bestemt sprog, finde den rigtige tekst, studere den og få den nødvendige løsning.

Med tiden vil opregning blive velkendt, og den akkumulerede erfaring vil give dig mulighed for at navigere i biblioteksinformation og andre matematiske problemer. Dette er et begrænset informationsrum af spørgsmål og svar. Et karakteristisk træk: en sådan søgning efter information akkumulerer viden til at løse lignende problemer. En persons søgen efter information efterlader spor ("aktive links") i hans hukommelse om mulige løsninger på andre problemer.

I fiktion, find svaret på spørgsmålet: "Hvordan levede folk i januar 1248?" meget hård. Endnu sværere er det at svare på spørgsmålet om, hvad der var på butikshylderne, og hvordan fødevarehandlen var organiseret. Selvom en forfatter klart og direkte skrev om dette i sin roman, hvis navnet på denne forfatter kunne findes, så tvivl ompålideligheden af de modtagne data forbliver. Pålidelighed er en kritisk egenskab ved enhver mængde information. Kilden, forfatteren og beviser, der udelukker resultatets falskhed, er vigtige.

Objektive omstændigheder i en bestemt situation

Mennesket ser, hører, føler. Nogle specialister er flydende i en unik følelse - intuition. Redegørelsen af problemet kræver information, processen med at løse problemet er oftest ledsaget af en forfining af problemformuleringen. Dette er de mindre problemer, der følger med at flytte information ind i indvoldene i et computersystem.

Information i det virtuelle rum
Information i det virtuelle rum

Biblioteket og arbejdskollegerne er indirekte deltagere i beslutningsprocessen. Udformningen af bogen (kilden), grafikken i teksten, funktionerne ved at opdele information i overskrifter, fodnoter efter sætninger, emneindekset, listen over primære kilder - alt fremkalder associationer hos en person, der indirekte påvirker løsningsprocessen problemet.

Tidspunktet og stedet for at løse problemet er afgørende. En person er så indrettet, at han ufrivilligt er opmærksom på alt, der omgiver ham i processen med at løse et problem. Det kan være distraherende, eller det kan være stimulerende. Data Mining vil aldrig "forstå".

Information i virtuelt rum

En person har altid kun været interesseret i pålidelig information om en begivenhed, fænomen, objekt, algoritme til løsning af et problem. Mennesket har altid forestillet sig præcis, hvordan det kan nå det ønskede mål.

Forekomsten af computere og informationssystemer burde have gjort livet lettere for en person, men alt er kun blevet mere kompliceret. Information migrerede til computersystemernes indvolde og forsvandt ude af syne. For at vælge de nødvendige data skal du oprette en korrekt algoritme eller formulere en forespørgsel til databasen.

Data inde i informationssystemet
Data inde i informationssystemet

Spørgsmålet skal være korrekt. Først da kan du få svar. Men der er stadig tvivl om ægtheden. I denne forstand er Data Mining virkelig "udgravninger", det er "informationsudvinding". Sådan er det moderne at oversætte denne sætning. Den russiske version er data mining eller data mining-teknologi.

I autoritative specialisters værker er datamining-opgaverne angivet som følger:

  • klassifikation;
  • clustering;
  • association;
  • sekvens;
  • forecasting.

Ud fra den praksis, der vejleder en person i den manuelle behandling af information, kan alle disse holdninger diskuteres. Under alle omstændigheder behandler en person information automatisk og tænker ikke på at klassificere data, kompilere tematiske grupper af objekter (clustering), søge efter tidsmæssige mønstre (sekvens) eller forudsige resultatet.

Alle disse positioner i det menneskelige sind er repræsenteret af aktiv viden, som dækker flere positioner og dynamisk bruger logikken i at behandle de indledende data. En persons underbevidsthed spiller en vigtig rolle, især når han er specialist inden for et bestemt vidensområde.

Eksempel: Engrossalg af computerudstyr

Opgaven er enkel. Der er fleresnesevis af leverandører af computerudstyr og periferiudstyr. Hver har en prisliste i xls-format (Excel-fil), som kan downloades fra leverandørens officielle hjemmeside. Det er påkrævet at oprette en webressource, der læser Excel-filer, konverterer dem til databasetabeller og giver kunderne mulighed for at vælge de ønskede produkter til de laveste priser.

Der opstår problemer med det samme. Hver leverandør tilbyder sin egen version af strukturen og indholdet af xls-filen. Du kan få filen ved at downloade den fra leverandørens hjemmeside, bestille den via e-mail eller få et downloadlink via din personlige konto, det vil sige ved officielt at registrere dig hos leverandøren.

Virtuel computerbutik
Virtuel computerbutik

Løsningen af problemet (helt i begyndelsen) er teknologisk enkel. Indlæser filer (indledende data), en filgenkendelsesalgoritme er skrevet for hver leverandør, og dataene placeres i én stor tabel med indledende data. Efter at alle data er modtaget, efter at mekanismen med kontinuerlig udveksling (dagligt, ugentlig eller ved ændring) af friske data er blevet etableret:

  • skift sortiment;
  • prisændringer;
  • afklaring af mængden på lager;
  • justering af garantibetingelser, specifikationer osv.

Det er her, de virkelige problemer begynder. Sagen er, at leverandøren kan skrive:

  • notebook Acer;
  • notebook Asus;
  • Dell laptop.

Vi taler om det samme produkt, men fra forskellige producenter. Hvordan matcher man notebook=bærbar eller hvordan man fjerner Acer, Asus og Dell fra en produktlinje?

Formenneske er ikke et problem, men hvordan vil algoritmen "forstå" at Acer, Asus, Dell, Samsung, LG, HP, Sony er varemærker eller leverandører? Hvordan matcher man "printer" og printer, "scanner" og "MFP", "kopimaskine" og "MFP", "hovedtelefoner" med "headset", "tilbehør" med "tilbehør"?

Opbygning af et kategoritræ baseret på kildedata (kildefiler) er allerede et problem, når du skal indstille alt til automatisk.

Datasampling: udgravninger af "frisk hældte"

Opgaven med at skabe en database over leverandører af computerudstyr er løst. Et træ af kategorier er blevet bygget, et fælles bord med tilbud fra alle leverandører fungerer.

Typiske Data Mining-opgaver i forbindelse med dette eksempel:

  • find et produkt til den laveste pris;
  • vælg varen med den laveste forsendelsesomkostning og pris;
  • produktanalyse: egenskaber og priser efter kriterier.

I det virkelige arbejde for en leder, der bruger data fra flere dusin leverandører, vil der være mange variationer af disse opgaver og endnu mere virkelige situationer.

Der er for eksempel en leverandør "A", der sælger ASUS VivoBook S15: forudbetaling, levering 5 dage efter den faktiske modtagelse af penge. Der er en leverandør "B" af det samme produkt af samme model: betaling ved modtagelse, levering efter indgåelse af kontrakten inden for en dag, prisen er halvanden gang højere.

Data Mining begynder - "udgravninger". Billedudtryk: "udgravninger" eller "data mining" er synonymer. Det handler om, hvordan man får en grund til at træffe en beslutning.

Leverandører "A" og "B" har en historik med leveringer. karakterforudbetaling i første tilfælde mod betaling ved modtagelse i andet tilfælde under hensyntagen til, at leveringssvigten i andet tilfælde er 65 % højere. Risikoen for bøder fra klienten er højere/lavere. Hvordan og hvad skal bestemmes, og hvilken beslutning skal træffes?

På den anden side: databasen blev oprettet af en programmør og en manager. Hvis programmøren og lederen har ændret sig, hvordan bestemmer man databasens aktuelle tilstand og lærer hvordan man bruger den korrekt? Du skal også lave data mining. Data Mining tilbyder en række matematiske og logiske metoder, der er ligeglade med, hvilken slags data der forskes i. Dette giver den korrekte løsning i nogle tilfælde, men ikke i alle.

Bevæger sig ind i virtualitet og finder mening

Data Mining-metoder bliver meningsfulde, så snart informationen er skrevet ind i databasen og forsvinder fra "synsfeltet". Handel med computerudstyr er en interessant opgave, men det er bare en forretning. Hvor godt han er organiseret i virksomheden afhænger af dens succes.

Klimaændringer på planeten og vejret i en bestemt by er af interesse for alle, ikke kun professionelle klimaeksperter. Tusindvis af sensorer måler vind, fugtighed, tryk, data fra kunstige jordsatellitter, og der er en historie med data i årevis og århundreder.

Vejrdata handler ikke kun om at beslutte, om man skal have en paraply med på arbejde. Data Mining-teknologier er sikker flyvning for et passagerfly, stabil drift af en motorvej og pålidelig forsyning af olieprodukter ad søvejen.

"Rå" data sendes til informationensystem. Data Minings opgaver er at omdanne dem til et systematiseret system af tabeller, etablere links, fremhæve grupper af homogene data og opdage mønstre.

Klima, vejr og rådata
Klima, vejr og rådata

Matematiske og logiske metoder siden kvantitativ analyses dage OLAP (On-line Analytical Processing) har vist deres praktiske anvendelighed. Her giver teknologien dig mulighed for at finde mening og ikke miste den, som i eksemplet med salg af computerudstyr.

Desuden i globale opgaver:

  • transnational forretning;
  • lufttransportstyring;
  • undersøgelse af jordens indvolde eller sociale problemer (på statsniveau);
  • undersøgelse af lægemidlers virkning på en levende organisme;
  • forudsige konsekvenserne af opførelsen af en industrivirksomhed osv.

Datamine-teknologier og forvandling af "meningsløse" data til rigtige data, der giver dig mulighed for at træffe objektive beslutninger, er den eneste mulighed.

Menneskelige muligheder slutter, hvor der er en stor mængde rå information. Data mining-systemer mister deres anvendelighed, hvor det er nødvendigt for at se, forstå og føle information.

Rimelig fordeling af funktioner og objektivitet

Mand og computer bør supplere hinanden - dette er et aksiom. At skrive en afhandling er en prioritet for en person, og et informationssystem er en hjælp. Her er de data, som Data Mining-teknologien har, heuristik, regler, algoritmer.

Udarbejdelse af en ugentlig vejrudsigt er informationssystemets prioritet. Mennesket styrer dataene, men baserer sine beslutninger på resultaterne af systemets beregninger. Det kombinerer Data Mining-metoder, specialistdataklassificering, manuel kontrol af anvendelsen af algoritmer, automatisk sammenligning af tidligere data, matematiske prognoser og en masse viden og færdigheder hos rigtige mennesker involveret i anvendelsen af informationssystemet.

Mand og computer
Mand og computer

Sandsynlighedsteori og matematisk statistik er ikke de mest "favorit" og forståelige videnområder. Mange specialister er meget langt fra dem, men de metoder, der er udviklet på disse områder, giver næsten 100% korrekte resultater. Ved at anvende systemer baseret på ideer, metoder og algoritmer fra Data Mining kan løsninger opnås objektivt og pålideligt. Ellers er det simpelthen umuligt at finde en løsning.

Faraoer og mysterier fra tidligere århundreder

Historien blev med jævne mellemrum omskrevet:

  • stater - af hensyn til deres strategiske interesser;
  • autoritative videnskabsmænd - af hensyn til deres subjektive overbevisning.

Det er svært at sige, hvad der er sandt, og hvad der er falsk. Brugen af Data Mining giver os mulighed for at løse dette problem. For eksempel blev teknologien til at bygge pyramider beskrevet af kronikører og studeret af videnskabsmænd i forskellige århundreder. Ikke alt materiale er kommet på internettet, ikke alt er unikt her, og mange data har muligvis ikke:

  • beskrevet tidspunkt;
  • tidspunkt for beskrivelsen;
  • datoer, som beskrivelsen er baseret på;
  • forfatter(e), meninger (links) taget i betragtning;
  • bekræftelse af objektivitet.

Bbiblioteker, templer og "uventede steder" kan du finde manuskripter fra forskellige århundreder og materielle beviser fra fortiden.

Interessant mål: at sætte alt sammen og afdække "sandheden". Problemets træk: information kan opnås fra den første beskrivelse af en kronikør i faraoernes levetid til det nuværende århundrede, hvor dette problem er løst ved moderne metoder af mange videnskabsmænd.

Begrundelse for at bruge Data Mining: manuelt arbejde er ikke muligt. For mange mængder:

  • informationskilder;
  • repræsentationssprog;
  • forskere, der beskriver det samme på forskellige måder;
  • datoer, begivenheder og vilkår;
  • termkorrelationsproblemer;
  • analyse af statistik efter datagrupper over tid kan variere osv.

I slutningen af forrige århundrede, da endnu en fiasko af ideen om kunstig intelligens blev indlysende ikke kun for lægmanden, men også for en sofistikeret specialist, dukkede ideen op: "at genskabe personligheden."

For eksempel, ifølge Pushkins, Gogols, Chekhovs værker dannes et bestemt system af regler, adfærdslogikker, og der skabes et informationssystem, der kan besvare visse spørgsmål, som en person ville: Pushkin, Gogol eller Tjekhov. Teoretisk set er sådan en opgave interessant, men i praksis er den ekstremt svær at gennemføre.

Ideen med sådan en opgave antyder imidlertid en meget praktisk idé: "hvordan man opretter en intelligent informationssøgning." Internettet er en masse udviklingsressourcer, en enorm database, og dette er en fantastisk mulighed for at anvende Data Mining i kombination med menneskeliglogik i form af fælles udvikling.

Maskine og menneske sammen
Maskine og menneske sammen

En maskine og en mand parret er en fremragende opgave og en utvivlsom succes inden for "informationsarkæologi", udgravninger af høj kvalitet i data og resultater, der vil sætte noget i tvivl, men uden tvivl vil give dig mulighed for at få ny viden og vil blive efterspurgt i samfundet.

Anbefalede: