English version
German version
Spanish version
French version
Italian version
Portuguese / Brazilian version
Dutch version
Greek version
Russian version
Japanese version
Korean version
Simplified Chinese version
Traditional Chinese version
Hindi version
Czech version
Slovak version
Bulgarian version
 

Van Corpora aan Aanpassing

Seo RSS Feed





Het maken van efficiënt gebruik van Internet is meer en meer over het creëren van betere en intelligentere toepassingen en onderzoeksmotoren. Hier is een korte inleiding in hoe de onderzoeksmotoren werken:

01) Bepaal het corpus, onderzoeksruimte/gegevens;
02) Scheid het corpus in documenten;
03) Produceer eigenschappen voor elk document;
04) Produceer een vertegenwoordiging van elk document;
05) Bestudeer de eigenschap/de vectorruimte;
06) Groepeer me documenten;
07) Verminder dimensionaliteit;
08) Keur inputvragen goed;
09) Vind de cosinushoeken tegen de vraagvector;
10) Vind de gezochte vectorkolom;
11) De resultaten van de output aan gebruiker op één of andere manier;

Elk document in een corpus (gegevensbestand) wordt beschreven door een reeks sleutelwoorden genoemd indextermijnen. Wij wijzen gewichten aan indextermijnen volgens toe hun relevantie (frequentie van voorkomen bijvoorbeeld), zo gaan wij over het creëren van de index, die wij kunnen dan zoeken.

De voorbereiding van het corpus:
De Web-pagina's van belang worden geanalyseerd en door hypertextmarkeringen of een andere hypertaal te verwijderen schoongemaakt; De pagina's worden dan opgesplitst in documenten waar elk document door het zoeken naar woorden/termijnen van belang wordt afgetast: die die tot een document unieke, niet standaardwoorden maken.

De termijnen van het uittreksel van belang:
Houd in gedachten dat de termijnen van belang onveranderlijk moeten zijn, dat kenmerkend is van een document is, niet generisch en gemakkelijk om in om het even welk corpus/document te vinden Het idee is een handtekening per document te vinden.

Bouw termijn-door-document matrijs:
De onderzoeksruimte wordt bepaald door de dimensies van N waar de gekozen termijnen/de eigenschappen van een document een punt in de N- term ruimte zijn, staat dit conceptuele/semantische onderzoeken toe.

Elk document wordt een kolomvector, vertegenwoordigt elke rij een termijn. Elke rij identificeert de frequentie van een termijn over het geanalyseerde corpus, aanvankelijk bouwen wij eenvoudig de matrijs door de termijnen voor elk document te tellen.

Pers de matrijs samen:
Er zijn twee basistechnieken/methodes, samenperst de Opslag van de Rij (de matrijsrij van het Aftasten door rij) en de Opslag van de Kolom van het Kompres (de de matrijskolom van het Aftasten door kolom) Beide gebruik drie series.

Normalis de matrijs:
De normalisatie impliceert omzettend kolomvectoren aan eenheidsvectoren: d.w.z. vectoren van eenheidslengte

De het documentvectoren van de eenheid bevatten frequentie van termijnen; de normalisatie wordt toegepast omdat de semantische inhoud van een document over het algemeen de relatieve frequentie van termijnen wordt bepaald.

De bijzondere Decompositie van de Waarde:
Dit vereenvoudigt een symmetrische matrijs in drie matrijzen Twee is identiek en vertegenwoordigt de eigen vectoren: de nieuwe afmetingen. Het derde is diagonaal en vertegenwoordigt de eigenwaarden, dat de verspreiding van het corpus langs deze nieuwe afmetingen is.

Een geometrische interpretatie:
Het corpus is eerste formated, zijn oorsprong vond en dan wordt opgeslagen in compacte een termijn-door-document matrijs. Elke kolom van dergelijke matrijs is dan genormaliseerd om de waarschijnlijkheid van een termijn over het corpus, of, equivalently, de frequentie van termijnen in een document te veroorzaken.

Wordt de termijn-door-document matrijs dan ontbonden om eigenwaarden en vectoren te berekenen. De vectoren van Eigen vertegenwoordigen een nieuw Cartesiaans gecoördineerd kader dat de zelfde onderzoeksruimte overspant, MAAR zij wijzen op belangrijkste dimenions/as waarlangs de documenten hoofdzakelijk liggen. De waarde van Eigen kwantificeert de verspreiding van documenten langs deze nieuwe assen/eigenvectoren.

Vragen:
De vragen moeten onder bepaalde eigenschappen/voorwaarden binnen de termijn-door-document matrijs worden gebaseerd, wordt de aanpassing in een vectorruimte zoals dit uitgevoerd door de vraagvector tegen de termijnen met documentmatrijs te vermenigvuldigen, d.w.z. aanpassend een vraag vectorq tegen de documenten van de matrijs.

Ã"â© ik ben de websitebeheerder van het industriële museum Wandle (http://www.wandle.org). Gevestigd in 1983 door lokale mensen bepaalde om ervoor te zorgen dat de geschiedenis van de vallei niet meer werd veronachtzaamd maar voorlichting zijn erfenis voor het gebruik en de voordelen van de gemeenschap verbeterde.

Artikel Bron: Messaggiamo.Com

Translation by Google Translator





Related:

» Credit Secrets Bible
» Cash Making Power Sites
» Home Cash Course
» Automated Cash Formula


Webmaster krijgen html code
Voeg dit artikel aan uw website!

Webmaster verzenden van artikelen
Geen registratie vereist! Vul het formulier in en uw artikel is in de Messaggiamo.Com Directory!

Add to Google RSS Feed See our mobile site See our desktop site Follow us on Twitter!

Dien uw artikelen te Messaggiamo.Com Directory

Categorieën


Copyright 2006-2011 Messaggiamo.Com - Sitemap - Privacy - Webmaster verzenden van artikelen naar Messaggiamo.Com Directory [0.01]
Hosting by webhosting24.com
Dedicated servers sponsored by server24.eu