Vyhledávání dat na Internetu

V současné době se nejvíce lidí obrací na internetové "rozcestníky", které obsahují přehledně (adresářově) uspořádané odkazy na stránky, tříděné dle daného tématu. Odkazy na své stránky sem zpravidla umísťují sami autoři stránek. Hlavním představitelem této kategorie je server Yahoo, obsahující tento seznam pro anglicky psané stránky. V České republice lze kromě nejvýznamnějšího serveru Seznam jmenovat ještě například U zdroje nebo Centrum. Že je vytváření obdobných serverů zřejmě ekonomicky zajímavé naznačuje skutečnost, že další takový server, Atlas, si pořídila česká pobočka firmy Microsoft a MS Explorer jej nastavuje jako počáteční výchozí stránku.

Poznámka. Internet je placen z reklamy (jako tv Nova). Za každé zhlédnutí reklamního proužku se platí; v případě systému BilBoard se platí zobrazením upoutávky na Vaši stránku pro změnu někde jinde).

Přestože je všeobecně rozšířeno uspořádávání odkazů do kategorií a podkategorií, je při dnešním množství stránek zvykem doplňovat obdobné servery možností vyhledávání. Pokud použijeme vyhledávání v rámci serveru, budou se prohledávat jen informace, které sem umístili autoři stránek (zpravidla název a stručná charakteristika). Pokud budete někdy zadávat referenci na vlastní stránky, měli by jste zadávat takové informace, aby stránku našli pokud možno ti, pro které je užitečná. Některé servery umožňují se přepnout do jiného vyhledávacího stroje, například na Seznamu je možné volit plnotextový Kompas nebo Altavistu, ale není žádný vztah mezi zindexovanými stránkami tohoto prohledávače a stránkami, uvedenými v adresáři (i když právě uvedené systémy jsou možná vyjímka, autoři Kompasu se totiž zřejmě snaží zindexovat všechny stránky uvedené v Seznamu). Prohledávání v rámci serveru je užitečné - pokud například hledáte diskusní (nebo diskuzní) fóra, stačí zadat toto slovo a začít hledat. U každého nalezeného odkazu je pak vždy současně uvedena příslušná rubrika - jistě snadno najdete stránku, kde jsou samé diskusní skupiny a jednoduše si na ni klikněte. V rubrice pak najdete i odkazy, které neobsahují slovo "diskuse" (protože je to zbytečné, když už je v názvu skupiny - například: "Vrba - Máte problém? Svěřte se vrbě.").

Autorům podobných serverů jde samozřejmě o to, aby co nejvíce služeb poskytovali sami. Například na stránkách Seznamu najdete například program televize, stručné zpravodajství, nejčastěji používané mapy nebo předpověď počasí.

1. úkol

Najděte pomocí Seznamu obrázek (skupiny A, B, C a D)

(řada u okna)     (v pravo u zdi)
Hovawarta Chodského psa Rotvajlera (Rottweiler) Aljašského malamuta

Může to být i fenka. Nebude-li možné žádnou takovou stránku otevřít, nalezněte alespoň fotografii knírače.

Druhou možností jak vyhledávat je použít servery, které indexují celý Internet. Znamená to, že průběžně procházejí stránky, které již mají načtené, načítají je znovu a zkouší se podívat na odkazy na těchto stránkách. Naleznou-li novou stránku, také ji zindexují. Dnes je stránek velmi mnoho, takže se ke každé nemusí dostat. Proto dává smysl vyhledávací stroj na nějakou (například vaši novou) stránku upozornit. Tato metoda je mnohem objektivnější, protože příslušný web robot se řídí jen obsahem stránky a ne tím, co o ní autor řekl.

Samozřejmě i zde musí být nějak zajištěna reklama. Zatímco při uspořádání do adresářové struktury lze snadno umísťovat reklamu do rubriky, která má k problému nějaký vztah, zde je to již obtížnější - musí se vycházet z textu dané otázky. Jak to funguje, se můžete podívat například na serveru Altavista.

Altavista je jeden z nejstarších plnotextově indexujících serverů. Původně se jednalo o prestižní projekt společnosti Digital Equipment. Do své databáze zahrnuje (indexuje) jen samotné html stránky. Vzhledem ke třídění dokumentů má tendenci nabízet jako odpověď na dotaz zejména delší soubory, kde se hledaný termín objevuje častěji (platí zejména u složitějších dotazů). Aby jednostranně nezvýhodňoval některé servery, má tendenci hledat pokaždé jiné stránky (mění jejich pořadí). Obdobně fungují i ostatní podobné servery (Excite, Lycos a jeho HotBot a podobně).

Řada vyhledávacích serverů je jednostranně (tématicky) zaměřena. Na několik podobných strojů je odkaz například v příslušném adresáři Yahoo. Některé věci se hledají úplně jinak, například drivery pro MS Windows se vyhledávají na serveru WinDrivers.

Užitečnou pomůckou jsou dva vyhledávací stroje firmy Lycos. FTPsearch.lycos.com umožňuje vyhledat, odkud si lze stáhnou soubor ze serveru ftp. Často se totiž stává, že kvůli přetíženosti sítě či serveru je daný soubor dočasně nedostupný a my sice víme jméno a třeba i velikost souboru, ale nedokážeme jej stáhnout. Tento vyhledávací server nám možná najde jiný zdroj, který bude možná blíže nebo rychlejší (osobně se mi jako nejrychlejší osvědčily servery na německých universitách). (Někdy také může být soubor nedostupný proto, že jej autor stáhl z distribuce. Například Microsoft již nepodporuje Windows 3.11, takže například knihovna win32s či soubor wing10.zip se musí stahovat z počítačů, kde je správci zapoměli odstranit).
(poznámka: tato služba již není dostupná).

Druhým je MP3search, který vyhledává soubory ve formátu MP3 po webu. Zkuste si zadat jméno nějaké (raději starší) anglicky zpívané písničky, třeba ji půjde od někud stáhnout.

Pokud se prohledává celý Internet, nevystačíme s podobně jednoduchými dotazy. Otevřít si Altavistu a zkusit mu třeba zadat heslo Windows vede ke všemu jinému, jen ne k nalezení nějaké rozumné stránky. Altavista se sám snaží v takovém případě pomoci - nabízí odkazy ze svého vlastního adresáře. Pro skutečné vyhledávání je ovšem třeba dotazy jednoznačněji formulovat. Máme několik možností.

Přes to všechno zůstává hlavní nevýhoda těchto vyhledávačů - vidí jen html stránky, které mohou zindexovat. Nevidí tedy například stránky populární encyklopedie Brittanica, nepodívají se do slovníku Merriam-Webster, a rozhodně nemohou zobrazit texty, nabízené ke stažení ve formátu pdf nebo postscript (pdf vyžaduje pro vytvoření zakoupit program Adobe Acrobat, kdežto druhý formát vyrobí jakýkoli textový editor, pokud zadáme vhodnou postscriptovou tiskárnu v nějakém hodně kompatabilním módu a vytiskneme text do souboru). Na Internetu lze například najít popis integrovaného obvodu PCF8591, ale Altavista je schopen najít jen odkaz na tuto stránku. Dalším problémem je zpoždění v načtení stránky do indexu, než se na daný server Altavista znovu podívá. Tento čas lze zkrátit tím, že mu adresu hotové stránky připomeneme; na hlavní stránce je za tím účelem vlevo dole odkaz "Add a URL" (URL = uniform resource locator, adresa např. www stránky včetně úvodního http:// ).

Příklady dotazů na server Altavista:

cloud cover* solar temperature increa* decre* vliv oblačnosti na teplotu
plane +cessna one-engine  
+"Digital Equipment" Corporation  
Siemens measur* sensor device network domain:de  
+bird house dimension titmouse  
   
   

 

2. úkol

Co se má najít a pomocí jakého hledacího serveru bude zadáno individuálně; tento text bude doplněn po zkušenostech s prvními cvičeními. Několik příkladů: Popis časování IO Atmel, porovnání vlastností základních desek počítačů od různých výrobců, přednáškový soubor (presentace) pro výklad šíření krátkých vln, princip činnosti neuronových sítí a podobně.