Il file robots.txt si basa su un protocollo che ha lo scopo di negare l'accesso a particolari url che non si desidera vengano indicizzati e resi disponibili su Internet, il file robots.txt che si trova nella directory principale dove è presente la struttura del sito web verrà letto dagli spider prima della scansione e seguirà le regole trovate all'interno di esso.
Gli spider sono programmi di proprietà dei vari motori di ricerca dediti alla scansione e all'indicizzazione dei contenuti presenti sulla rete che operano in modo continuativo.
Questo protocollo di esclusione su cui si basa il file robots.txt si limita a poche e semplici regole:
User-Agent :
In questa istruzione potremo definire il nome dello spider a cui vogliamo fornire le istruzioni, in caso non volessimo fare distinzioni tra i vari motori di ricerca sarà sufficiente utilizzare carattere jolly " * "
Esempio: User-Agent : * ( in questo esempio l'istruzione successiva si rivolge a tutti i motori di ricerca )
Disallow :
Nel valore di questa istruzione dovrà essere indicato l'url che lo spider dovrà escludere dall'indicizzazione sarà possibile indicare intere directory da escludere dall'indicizzazione
Esempio:
Disallow : /private ( in questo esempio l'istruzione indica il divieto di scansione e indicizzazione alla cartella "private" )
Questo protocollo pur semplice ha una sua importanza per quanto riguarda la sicurezza e la privacy dei server che hanno funzione di hosting, a volte sulla rete è possibile trovare contenuti estrapolati dagli spider che in realtà dovrebbero essere tenuti nascosti a causa di una cattiva gestione di questo file.