Il file robots.txt

Questo è uno di quei in cui rischio che qualcuno mi venga a trovare, con una serie di dati statistici in una mano e un bastone nell’altra. Lasciatemi dire che so benissimo che le cose non sono così semplici ma, nella maggior parte dei casi, il contenuto del vostro file robots.txt dovrebbe essere così:

User-agent: *
Disallow:

Cominciamo dal principio: se non lo sapete il file robots.txt è un semplice file di testo che deve essere messo nella radice del sito. Serve ai motori di ricerca e in particolare agli spider, questi leggono il file per capire se avete indicazioni particolari per loro.

Gli spider non sono tenuti a rispettare le vostre direttive, non esiste alcun obbligo tecnico o legale ma, nella maggior parte dei casi, lo fanno.

Il file robots va maneggiato con cautela: è piuttosto facile fare danni per cui, se non siete sicuri di quello che state facendo, è meglio che tenete le mani lontane dalla tastiera. Se invece avete voglia di documentarvi un po’ effettivamente può esservi utile.

A cosa mi serve lavorare sul file robots.txt?

Andiamo al nocciolo della questione: a cosa serve mettere le mani su questo file? Rimandiamo i dettagli di “come” fare le cose a tanti siti con autori più bravi del sottoscritto, l’unico vantaggio pratico che vedo nella personalizzazione del file consiste nell’evitare di far sprecare tempo e risorse agli spider (e in particolare a quello di google).

Lo spider del motore è pigro, ha tanti siti da visitare, archiviare e catalogare. Il tempo e le risorse che è disposto a dedicare al vostro sito è limitato. Evitare di fargli perdere tempo può essere una buona quindi è possibile utilizzare il robots.txt per evitare che lo spider “perda” tempo in sezioni del sito che non devono essere indicizzate. Prove, esperimenti, versioni obsolete… tutto quello non serve venga letto dallo spider può essere efficacemente indicato in questo file.

Attenzione: come spiegato sopra un’indicazione data nel file robots non offre alcuna garanzia di sicurezza. Se avete salvato sul server dei file che non volete vengano indicizzati dovrete proteggerli con un metodo più efficace.

Tag: ,

Lascia un Commento