Formiranje i pretrazivanje tekstualnih baza podataka

Nova tema  Odgovori 
Podelite temu sa drugarima: ZARADITE PRODAJOM SVOJIH RADOVA
 
Ocena teme:
  • 0 Glasova - 0 Prosečno
  • 1
  • 2
  • 3
  • 4
  • 5
Autor Poruka
Vesnica Nije na vezi
Posting Freak
*****

Poruka: 2,567
Pridružen: May 2010
Poruka: #1
Formiranje i pretrazivanje tekstualnih baza podataka
Maturski, seminarski i diplomski radovi iz informatike.

Procenjuje se da u preduzećima 10% informacija čine strukturirani podaci koji se mogu efikasno čuvati u relacionim bazama podataka, doksu ostalih 90% različiti tekstualni dokumenti – priručnici, izveštaji, elektronska pošta, faksovi, WWW strane, prezentacije i slično. Od izuzetne važnosti je da informacioni sistemi omoguće efikasan pristup i ovim tipovima dokumenata.

Tekstualne baze podataka

Tekstualna baza podataka je kolekcija dokumenata za koju je obezbeđen efikasan metod pristupa i pretraživanja po sadržaju i po nekim drugim atributima dokumenata.

Arhitekture sistema za indeksiranje i pretraživanje tekstualnih informacija

Postoje dve osnovne arhitekture sistema za indeksiranje i pretraživanje tekstualnih informacija. To su:
1. proširenje relacionih baza podataka mogućnostima efikasnog skladištenja i pretraživanja velike količine tekstualnih podataka.
2. specijalizovani sistemi za indeksiranje i pretraživanje dokumenata.

Sistemi koji se baziraju na proširenju relacionih baza podataka


Sistemi koji se baziraju na proširenju relacionih baza podataka dokumente čuvaju ili u ćelijama tabela, ili na nekom drugom mestu u sistemu( na disku, na mreži) pri čemu se u ovom drugom slučaju , u ćelijama tabela čuvaju adrese dokumenata. Upitni jezik je SQL atipičan predsavnik sistema koji se baziraju na proširenju relacionih baza podataka je Oracle.

Specijalizovani sistemi za indeksiranje i pretraživanje dokumenata

Specijalizovani sistemi omogućavaju indeksiranje i pretraživanje dokumenata koji su smešteni u običnim datotekama fajl sistema. Ovo pretraživanje bazira se na upotrebi Microsoft Index Servera .

Microsoft Index Servera

Osnovne osobine Index Servera su:
• Potpuna integrcija u Web server – upiti se postavljaju iz standardnog WWW brouzera, gde se i prikazuju rezultati pretraživanja;
• Indeksiranje po punom tekstu – korisnik može dokumente da pretražuje porečima, frazama, pa čak i po kompletnim rečenicama;
• Upiti po atributima dokumenata – omogućeno je pretraživanje dokumenata po nekim njihovim atributima, kao što su ime autora, opis, veličina fajla i datum;
• Neprecizni upiti – korisnik može da koristi džoker znake i regularne izraze da bi pronašao sve gramatičke oblike reči;
• Napredna pretraživanja – upiti se mogu formirati kombinacijom primitivnijih uslova upotrebo operatora blizine (NEAR), numeričkih (<,=,>) i logičkih operatora (AND, OR, NOT);
• Prilagodive forme za upite – moguće je kreirati različite forme za postavljanje uslova i stranice rezultata;
• Jednostavno održavanje – Index server automatski ažurira bazu indeksa kada se dokumenti izmene, dodaju ili izbrišu;
• Integrisana zaštita – korisniku se može ograničiti pravo pristupa samo nekim dokumentima.

Indeksiranje dokumenata

Proces indeksiranja dokumenata sastoji se od sledećih faza:
• Filtriranje teksta
• Izdvajanje reči iz teksta
• Normalizacija
• Upis indeksa

Prvi korak u indeksiraju dokumenta jeste filriranje sadržaja. Iz dokumenta se izdvajaju delovi teksta koji se u daljem procesu indeksiranja mogu tretirati kao celina. Za svaki ip dokumenta oji se može indeksirati definiše se određeni filter.
Izdvajanje reči iz teksta obavlja komponenta koja se naziva Word Breaker. Ova komponenta vodi računa o specifičnostima kodnih rasporeda za pojedine jezike.
U fazi normalizacije teksta iz indeksa se isključuju reči koje se ne indeksiraju sva slova se pretvaraju u velika, što obezbeđuje da rezultat upita ne zavisi od tipa slova koja se koriste u upitu.

Pretraživanje

U najjednostavnijem slučaju za implementaciju aplikacije za pretraživanje dokumenata potrebno je kreirati tri fajla:
• HTML formu za postavljanje upita
• Definiciju upita
• Templejt za rezultate(HTX fajl koji je običan HTML fajl koji sadrži promenljive koje referišu podatke iz rezultata upita.

Sistem za pretraživanje informacija

Upotreba Microsoft Index Servera u kompleksnim informacionim sistemima nameće potrebu da se posebnim softverskim sistemom reše neki problemi. Ovi problemi se tiču:
• Način zadavanja složenih upita
• Održavanja korisničke sesije
• Distribucije upita većem broju servera
• Zaštite podataka
• Publikovanja dokumenata
• Integracije sistema u složene informacione sisteme.

Zadavanje složenih upita

Upiti se Microsoft Index Serveru zadaju preko komandnog jezika.Upit se u Sistemu za Pretraživanje Informacija (SPI) zadaje putem komandnog jezika, koji je u odnosu na Microsoft-ov jezik znatno uprošćen.

Korisnička sesija


PORUČITE RAD NA OVOM LINKU >>> SEMINARSKI
maturski radovi seminarski radovi maturski seminarski maturski rad diplomski seminarski rad diplomski rad lektire maturalna radnja maturalni radovi skripte maturski radovi diplomski radovi izrada radova vesti studenti magistarski maturanti tutorijali referati lektire download citaonica master masteri master rad master radovi radovi seminarske seminarski seminarski rad seminarski radovi kvalitet kvalitetni fakultet fakulteti skola skole skolovanje titula univerzitet magistarski radovi

LAJKUJTE, POZOVITE 5 PRIJATELJA I OSTVARITE POPUST
11-06-2010 02:43 PM
Poseti veb stranicu korisnika Pronađi sve korisnikove poruke Citiraj ovu poruku u odgovoru
Nova tema  Odgovori 


Verovatno povezane teme...
Tema: Autor Odgovora: Pregleda: zadnja poruka
  Tipovi podataka u C++ derrick 0 1,398 08-09-2013 01:21 AM
zadnja poruka: derrick
  Tipovi podataka derrick 0 1,074 08-09-2013 01:19 AM
zadnja poruka: derrick
  Bežični prenos podataka Maja 0 1,281 22-08-2012 03:54 PM
zadnja poruka: Maja
  Delphi- rad sa bazama podataka - aplikacija sa bazom Maja 0 1,473 22-08-2012 03:49 PM
zadnja poruka: Maja
  Red vožnje (autobusi) - baza access Maja 0 1,593 08-03-2012 02:59 PM
zadnja poruka: Maja

Skoči na forum: