Motori internet a caccia del web sconosciuto

Nuova generazione di motori a caccia del web sconosciuto
di RICCARDO BAGNATO tratto da www.repubblica.it
Le nostre ricerche scandagliano solo una minima parte delle pagine esistenti. Oltre il 90 per cento resta nascosto. Ma alcuni progetti - Kosmix, DeepPeep e Openarchives.org - si ripromettono di renderle visibili. Con algoritmi che ragionano come la mente umana. Superando i tradizionali limiti di spider e crowler tipici di Google & C.

LA PUNTA di un iceberg. Meno del 10 per cento per cento di tutto il Web esistente. E' quanto - secondo alcune autorevoli ricerche - riescono a indicizzare in realtà i migliori motori di ricerca online. E il restante 90 per cento? Lo chiamano "Deep Web", ovvero il Web profondo, invisibile, non raggiungibile grazie agli attuali motori di ricerca. Ma che alcune nuove tecnologie promettono di poter rendere disponibili a breve.

Quanto è profondo il Web? Difficile dirlo. Secondo l'azienda Bright Planet, che nel settembre 2001 ne ha sondato le profondità, "Deep Web" sarebbe un vero e proprio pozzo di San Patrizio, un miniera d'oro, un'immensa foresta vergine a confronto del giardinetti di casa a cui ci avrebbero abituati i normali motori di ricerca. Per altri sarebbe addirittura la nuova frontiera del Web. Tanto che gli stessi numeri uno della ricerca, da Google a Yahoo!, negli ultimi anni stanno moltiplicando gli sforzi per capire come indicizzare questo immenso patrimonio altrimenti irraggiungibile, e quindi renderlo disponibile ai propri utenti.
D'altra parte stiamo parlando delle informazioni archiviate e organizzate in database, dei contenuti consultabili soltanto su siti protetti da password, o delle tante pubblicazioni scientifiche e non in PDF che non hanno ancora trovato un solo lettore disposto a segnalarne la presenza con un link.

Già, perché gli attuali motori di ricerca ogni giorno perlustrano il Web alla ricerca di nuove pagine da offrire tra i risultati delle nostre ricerche, e lo fanno essenzialmente seguendo uno dopo l'altro i link presenti nel Web per mezzo di software ad hoc chiamati spider ("ragni") o crawler ("scansionatori"). Così facendo rintracciano le pagine web esistenti, ricostruendo di volta in volta un rapporto di senso fra loro, riuscendo a suggerire successivamente quale potrebbe essere il risultato più utile, sulla base del numero di link e del tipo di link che rimanda a quella determinata pagina o documento. Al contrario, se verso una pagina o un documento non esiste nessun link, quella stessa pagina o documento non verrà raggiunto, e di conseguenza sarà ignorato.

Peccato che in questo modo si perdono milioni di informazioni utili. La Bright Planet stima che il 54 per cento del Web profondo è costituito dai risultati che ottiene un utente in seguito a una richiesta effettuata consultando ad esempio un orario di volo. Ed è per questo che BigG & Co. non sono in grado di rispondere pienamente a domande come: "Qual è la tariffa più conveniente da Milano a Londra per il prossimo giovedì?", così come denuncia il New York Times che sul fenomeno "Deep Web" ha appena pubblicato una breve inchiesta.

Novità in arrivo? Recuperare questo capitale di informazioni irraggiungibile è sicuramente lo scopo di Anand Rajaraman, cofondatore di Kosmix, una start-up creata per l'appunto per la ricerca nel web profondo, fra i cui investitori c'è addirittura Jeffrey P. Bezos, amministratore delegato di Amazon.com. Ma non è il solo ad interessarsi all'argomento. La professoressa Juliana Freire, dell'Università dello Utah, ha infatti lanciato il progetto DeepPeep, che sfrutta un algoritmo apparentemente capace di simulare le modalità con cui la mente umana ragiona, così da ovviare a quel maldestro cammino che porta i vari spider o crawler a scansionare il Web link dopo link. E infine c'è il progetto Openarchives.org, promotore del protocollo OAI-PMH, con cui si cerca di indicizzare i documenti sui motori di ricerca inviando loro metadati in formato Xml, in modo da rendere più appetibili e comprensibili i contenuti anche in assenza di link. Per ora, tuttavia, l'unica cosa certa è che oltre il 90 per cento delle informazioni online non sono disponibili attraverso i normali motori di ricerca. Rimane forse da domandarsi: e se lo fosse? E' un traguardo auspicabile?

Posso permettermi di dire che se quel90% resta nascosto è perchè non frega quasi nulla a nessuno di quel materiale?

Certo, certo, sono sempre informazioni in più...

Non sono sicurissimo, parla di materiale "non linkato" oppure "protetto con password".
Direi che se del materiale non viene pubblicato e/o pubblicizzato significa che non lo si vuole divulgare, appunto, pubblicamente.

Devo farmi un'idea più precisa, comunque.

Nah, a te non frega niente solo perché scrivendo drow su google trovi Valm tra i primissimi risultati

Indubbiamente interessante come cosa ma...anche molto noiosa e dispendiosa :sisi:

Se tanto le informazioni principali le trovi normalmente, non c'è motivo di andare a cercare il pelo nell'uovo :nono:

A meno che uno non abbia tempo da perdere

Ciao a tutta la banda.

Abraxas ha scritto:Se tanto le informazioni principali le trovi normalmente, non c'è motivo di andare a cercare il pelo nell'uovo

Abraxas, se voglio cercare il volo più economico per andare da A a B, e i voli segnati nel 10% "visibile" non sono abbastanza economici, io non faccio il viaggio. (caso reale - viaggio a Londra saltato - estate 2008)

Se nel restante 90% c'è una maniera o un volo per andare a Londra in maniera più economica, questo non mi sembra un "pelo nell'uovo".
Al massimo... un pelo di Torx in Albione! :jollone:

(oh, almeno UNA battuta me la fate fare? :jollone:

)

Poi, non so quanto di interessante ci sia effettivamente, ma varrebbe la pena di approfondire l'argomento.

JM2C
Salud.
Torx

Secondo me è molto interessante soprattutto a livello di quantità di materiale reperibile (quanto alla qualità poi, si presume che chi faccia un'indagine più approfondita non servendogli le 4 info di base che giustamente trova sui primi, e più attendibili siti, sappia anche scremare cum grano salis)

Si faccia l'esempio di immagini o di informazioni su un determinato fenomeno/settore. A voler fare una ricerca dettagliata, ogni motore di ricerca offre quegli stessi 8 siti che si ricopiano tra loro: l'approfondimento (o la ricerca di immagini nuove e diverse dalle prime 6 pagine di ogni motore di ricerca, sempre quelle) almeno per quanto mi riguarda la trovo sempre in sublink di link di pagine che contengono rimandi cui ci accedi in modo spesso troppo difficioltoso, casuale e dispendioso di tempo

Senza considerare che, 6 casi su 10 i top link nei maggiori motori di ricerca sono dovuti alla capacità dei singoli di organizzare bene la pagina con richiami, banner, pubblicità, e tutte quelle cose che Muze ci spiega sul concetto di "visibilità immediata" della page

Per cui, visto che non sempre visibilità = qualità o dettaglio dell'informazione, riuscire a creare un sistema che possa pescare a quella minira di info internet che spesso foss'anche per motivi di mancata voglia o capacità di visualizzazione rimangono in 3, 4, o 5 linea, bhè potrebbe essere interessante, al netto chiaro degli zilioni di spazzatura che verrebbero a galla: ma poi sta all'utenza scremare.

Magari riuscire a prevedere opzioni che consentano di graduare il livello di profondità della rete che si vuole raggiungere, in modo da tutelare certe categorie (es: bambini) o cmq settare il tipo di ricerca a seconda del tipo di utente e delle sue esigenze

E pensate a quanti orripilanti cosplay potrò trovare! :twisted:

Segnalo qui un motore di ricerca estremamente interessante, soprattutto per chi con internet ci lavora e non solo ci cazzeggia.

Questo sito "clusterizza" i risultati della ricerca, ovvero li raggruppa per argomento, permettendovi di depurare la ricerca di quello che non vi interessa.
Scommetto che ne sentiremo parlare molto in futuro.

Un esempio:
Immagine

Buon divertimento

Motori internet a caccia del web sconosciuto

Motori internet a caccia del web sconosciuto

Re: Motori internet a caccia del web sconosciuto

Re: Motori internet a caccia del web sconosciuto

Re: Motori internet a caccia del web sconosciuto

Re: Motori internet a caccia del web sconosciuto

Re: Motori internet a caccia del web sconosciuto

Re: Motori internet a caccia del web sconosciuto

Re: Motori internet a caccia del web sconosciuto

Re: Motori internet a caccia del web sconosciuto