Podstawą wyszukiwania informacji jest środowisko w którym możemy przeszukiwać ustalonymi metodami. Wiedza zgromadzona w jakiejkolwiek formie jest przetwarzana, interesujące nas dane selekcjonowane w odpowiednio zdefiniowany sposób. Jednym ze sposobów zgromadzenia interesującej nas wiedzy jest eksploracja literaturowa, albo system ankietowy.
Przygotowanie takiej ankiety może być już wstępem do przetwarzania danych, dlatego też możemy wyróżnić ankietę z pytaniami otwartymi, gdzie ankietowany podaje odpowiedź swoimi słowami. Możemy także wyróżnić ankietę będącą już dokumentem wtórnym, gdzie odpowiedzi ankietowanego są umieszczane w wersji skróconej, adekwatnie do potrzeb zdefiniowanego systemu informatycznego.
Rozważania powyższe określają nam definicje:
- Dokument źródłowy – opis obiektu w postaci źródłowej (język naturalny); dokument na wejściu systemu,
- Dokument wtórny – dokument opracowany na podstawie dokumentu źródłowego przystosowany do konkretnego systemu informatycznego; dokument gdzie wszystkie informacje z dokumentu źródłowego są kodowane; są to informacje skrócone.
i są prekursorem określenia definicji: - Dokument wyszukiwawczy – jest to dokument opracowany na podstawie dokumentu wtórnego; przystosowany do konkretnej metody wyszukiwania informacji.
Powyższe ustalenia umożliwiają nam przystąpienie do wyszukiwania informacji poprzez stworzenie systemu wyszukiwania informacji zdefiniowanego pod konkretną metodę wyszukiwania informacji. Pierwszym krokiem jest zdefiniowanie kartoteki wyszukiwawczej zdefiniowanej w sposób umożliwiający dokonanie przetwarzania zgromadzonej wiedzy.
Analizując ankietę przedstawioną powyżej możemy zauważyć, że cechuje się 12 pytaniami – Atrybutami. Każde z nich ma swój zbiór możliwych odpowiedzi – Wartości. Każda ankieta jest Obiektem takiego systemu. Umożliwia nam to zaprezentowanie ww. Kartoteki Wyszukiwawczej i opisanie jej w sposób symboliczny.
Jak widać w wypełnionej kartotece wyszukiwawczej są możliwe wartości będące atomowymi, unikalnymi wartościami jak TAK lub NIE, ale także może brakować odpowiedzi, bądź wartości atrybutów są listą możliwych wartości. Niezależnie od tego taka kartoteka wyszukiwawcza jest podstawą do opracowania listy możliwych wartości atrybutów, bądź jest odwzorowaniem zaprojektowania list atrybutów oraz ich możliwych (dopuszczalnych) wartości.
Zadanie 1:
Zaproponuj własne źródło wiedzy pierwotnej (dokument źródłowy), opracuj na jego przykładzie dokument wtórny. Przygotuj własną kartotekę wyszukiwawczą.
System informacyjny
Idąc za wykładem możemy przypomnieć, że w każdym systemie informacyjnym będziemy wyróżniać:
- skończony zbiór obiektów X i skończony zbiór atrybutów A .
- z każdym atrybutem a należącym do zbioru A zwiążemy zbiór jego wartości Va – zwany dziedziną atrybutu a.
- zakładamy, ze dziedzina każdego atrybutu jest co najmniej dwuelementowa.
- do opisu własności obiektów systemu wprowadzimy dwuargumentową funkcję ρ, która każdemu obiektowi x ∈ X i atrybutowi a ∈ A przyporządkowuje wartość v należącą do dziedziny Va atrybutu a.
Odnosząc się do naszego przykładu:
- X = { Ankieta 1 .. Ankieta 100 }
- A = { “Otyłość jest chorobą?“, “Przyczyną otyłości jest nadmierne spożywanie jedzenia?“, “Jak zmienia się z wiekiem zapotrzebowanie organizmu na energię?“, “W leczeniu otyłości stosuje się:“, “Czy cukrzyca może być skutkiem otyłości?“, “Co może być przyczyną rozwoju otyłości?“, “Czy otyłość zwiększa ryzyko zachorowania na nadciśnienie tętnicze?“, “Co jest efektem leczenia nadwagi i otyłości?“, “Która z metod leczenia otyłości jest najskuteczniejsza?“, “Główne źródło spożywanej energii powinno pochodzić z:“, “Źródłem nienasyconych kwasów tłuszczowych są:“, “Czy otyłość zwiększa ryzyko zachorowania na nowotwory?” }
Jak widać taki zapis zbioru atrybutów, choć poprawny staje się dość nieczytelny. Z pomocą mogą przyjść nam wprowadzone aliasy.
Teraz nasz zbiór atrybutów A przyjmuje bardziej reprezentatywną symbolicznie postać:
- A = { PYT1 .. PYT12 }
Mając określony zbiór obiektów i atrybutów można opracować zbiory wartości atrybutów:
- VPYT1 = { TAK, NIE }, gdzie ∃! VPYT1 = TAK ⊕ NIE; 1 ∃! (lub \bigvee !)- istnieje dokładnie jeden
- VPYT2 = { TAK, NIE }, gdzie ∃! VPYT2 = TAK ⊕ NIE;
- VPYT3 = { “ulega zmniejszeniu”, “pozostaje bez zmian”, “wzrasta” },
gdzie gdzie ∃! VPYT3 = “ulega zmniejszeniu” ⊕ “pozostaje bez zmian” ⊕ “wzrasta”; - VPYT4 = { “dietę”, “leki”, “zmianę stylu życia”, “leczenie operacyjne” };
- VPYT5 = { TAK, NIE }, gdzie ∃! VPYT5 = TAK ⊕ NIE;
Zadanie 2
Opracuj listę wartości atrybutów dla pytań od 6 do 12.
Także w przypadku zbioru wartości (dziedziny) argumentu możemy zastosować aliasy wartości o ile wpłynie to na zwiększenie czytelności zapisu.
W powyższym przykładzie nie występuje także taka sytuacja, gdzie można wprowadzić dodatkowe określenie uszeregowania wartości argumentów jak np. w sytuacji określania wartości książki:
Vcena = { tania, średnia, droga }, gdzie tania < 30zł < średnia < 100zł < droga.
Reasumując, przez system informacyjny będziemy rozumieli czwórkę S = ❬X, A, V, ρ❭,
gdzie:
- X = {x1, …, xn} – skończony zbiór obiektów systemu S,
- A = {a1, …, am} – skończony zbiór atrybutów systemu S,
- V = ∪a∈A Va, Va – zbiór wartości atrybutu a (dziedzina atrybutu),
- ρ : X × A → V – funkcja informacji, przy czym dla każdego x ∈ X oraz a ∈ A, ρ(x, a) ∈ Va
- Funkcja ρ musi być całkowita tzn. określona dla wszystkich wartości argumentów x oraz a.