Deep Web – internetul ascuns
Termenul de Deep Web (numit si Deep Net, Invisible Web, Dark Web sau Hidden Web) se refera la o parte din continutul World Wide Web care nu face parte din Surface Web, portiune indexata de motoarele standard de cautare. Acea parte a Web-ului care nu poate fi accesata de aceste motoare, se numeste Deep Web. Motoarele de cautare construiesc o baza de date a Web-ului folosind programe numite spiders sau web crawlers care incep explorarea cu o lista cunoscuta de pagini web. Spider-ul face o copie a paginii web accesate si o indexeaza, stocand informatiile necesare pentru ca acea pagina sa poate fi accesata rapid data viitoare. Toate link-urile din cadrul paginii indexate vor fi explorate si indexate la randul lor. Intr-un final, toate paginile web functionale vor fi explorate, daca nu cumva spider-ul nu mai are timp sau ramane fara spatiu pe disc. Toate paginile care au fost explorate si indexate, puse la un loc, formeaza ceea ce numim Surface Web (internetul asa cum il stim noi).
Din diverse motive, cum ar fi link-urile generate in JavaScript sau cele care necesita autentificare, paginile care nu sunt explorate raman in anonimat. Totalitatea lor formeaza Deep Web-ul.
In 2000, se estima ca Deep Web-ul contine aproximativ 7.500 de terabiti si 550 de miliarde de documente individuale.
In iunie 2008, numarul de pagini web indexate cu succes se ridica la aproximativ 63 de miliarde. In momentul de fata, se estimeaza ca Deep Web-ul depaseste de 4 ori ca marime Surface Web-ul.
Resursele Deep Web-ului pot fi clasificate in cateva categorii generale:
- pagini cu continut dinamic: pagini dinamice care apar ca raspuns la un anumit tip de cautare sau care sunt accesate prin formulare web (campuri de text). Explorarea acestor pagini e dificila, daca nu suntem familirizati cu continutul domeniului.
- pagini care nu sunt legate de altele prin link-uri, acest lucru impiedica programele de tip spider sa le acceseze continutul.
- web privat: pagini care necesita un nume de utilizator si o parola.
- web contextual: pagini ale caror continut variaza in functie contextul in care sunt accesate (clasa de I.P.-uri a clientului sau secventa de navigare precedenta).
- pagini cu continut limitat: pagini cu acces limitat tehnic ( folosesc programe care exclud accesul robotilor si impiedica motoarele de cautare sa le indexeze si sa creeze copii cache ).
- continut scriptat: pagini ce sunt accesibile doar prin link-uri de JavaScript, dar si alte continuturi dinamice descarcate de pe serverele web via Flash sau AJAX.
- continut non-HTML/text: continut textual codat in fisiere multimedia sau alte formate specifice ce nu sunt suportate de motoarele de cautare.
Motoare de cautare Deep Web
Infomine: a fost realizat de mai multe biblioteci din Statele Unite. Unele dintre ele apartin Universitatii din California, Universitatii din Detroit, Universitatii Wake Forest si a Universitatii de Stat California. Infomine extrage informatii din baze de date, jurnale electronice, carti electronice, buletine de stiri, liste de mail, cataloage online, articole si alte resurse. Se poate cauta dupa categorii de subiect, dar si mai in detaliu folosind optiunile de cautare. Infomine nu e doar un motor de cautare Deep Web, e o baza de date pentru multe informatii de referinta. Treceti in revista link-urile din josul paginii sale, Other Search Tools si General Reference.
The WWW Virtual Library: aceasta pagina e considerata a fi cel mai vechi catalog de pe web si a fost creat de catre Tim Berners-Lee, creatorul web-ului. Acest motor listeaza o multime de resurse relevante despre o multime de subiecte. Se poate folosi bara de cautare sau se pot explora directoarele verticale a subiectelor asezate in ordine alfabetica.
Intute: motor de cautare axat pe Anglia, dar care indexeaza si site-urile unor universitati prestigioase din zona, ce ofera resurse pentru studiu si cercetare. Poate fi explorat pe subiecte sau pe termeni de cautare. Mai beneficiaza si de ajutorul unor specialisti care indexeaza si alte site-uri care au legatura cu subiectul de studiu si cercetare.
Complete Planet: aceasta pagina se auto-intituleaza “usa din fata a Deep Web-ului”. Indexeaza o masa dinamica de baze de date ce sunt ascunse unei cautari conventionale. Sunt in jur de 70.000 de baze de date al caror continut variaza de la agricultura la domeniul militar. Are si o optiune de cautare ce tine cont de data calendaristica.
Infoplease: portal de informatii ce contine enciclopedii, almanahuri, atlase si biografii.
DeepPeep: motor de cautare ce acceseaza Deep Web-ul prin formulare de cautare ce inspecteaza bazele de date si serviciile web in cautare de informatii. Cautarile manuale au ca rezultat rezultate dinamice, dar cu viata scurta, ce nu pot fi indexate de motoarele standard. Prin indexarea bazelor de date, DeepPeep incearca sa tina evidenta a 45.000 de cautari in interiorul a 7 domenii. Domenii respective sunt Auto, Aviatie, Carti, Biologie, Hotel, Munca si Inchirieri.
IncyWincy: se comporta asemenea unui meta-motor de cautare deoarece se foloseste de alte motoare de cautare si apoi filtreaza rezultatele.
DeepWebTech: pagina ce ofera 5 motoare de cautare pentru anumite subiecte. Domeniile acoperite sunt din stiinta, medicina si afaceri.
Scirus: e axat doar pe stiinta. E un motor de cautare puternic ce indexeaza jurnale, site-uri personale ale savantilor, materiale de curs si retele institutionale.
TechXtra: motor de cautare ce e axat pe inginerie, matematica si I.T. Indexeaza stirile din aceste domenii, oferte de munca, rapoarte tehnice, documente electronice, resurse de studiu si cercetare si alte article si informatii relevante.
Sursa: www.descopera.org
0 comments: