Consulta il nostro articolo dettagliato sul file robots.txt

Cos'è il file robots.txt?

Il file robots.txt è un file di testo standard inserito nella directory principale del dominio all'indirizzo /robots.txt. Informa i robot dei motori di ricerca (crawler) su quali parti del sito possono essere indicizzate e quali dovrebbero essere ignorate. Fa parte del protocollo REP (Robots Exclusion Protocol) e, sebbene i crawler non siano obbligati a rispettarlo, tutti i principali motori di ricerca come Google, Bing o Yandex seguono queste regole.

SEO

Impedisci l'indicizzazione di duplicati, pagine di staging, pannelli di amministrazione e altre risorse che non dovrebbero apparire nei risultati di ricerca.

Budget di scansione (Crawl budget)

Limita la frequenza di scansione con Crawl-delay per non sovraccaricare il server con i robot dei motori di ricerca.

Sitemap

Indica la posizione della sitemap XML — aiuta i motori di ricerca a scoprire tutte le sottopagine del sito.

Sintassi del file robots.txt

Direttiva	Esempio	Significato
`User-agent`	User-agent: *	Definisce a quale bot si riferiscono le regole. * indica tutti i bot.
`Disallow`	Disallow: /admin/	Blocca l'accesso al percorso specificato e a tutte le sottodirectory.
`Allow`	Allow: /public/	Consente l'accesso al percorso, anche se quello superiore è bloccato.
`Sitemap`	Sitemap: /sitemap.xml	Indica la posizione della sitemap XML per i motori di ricerca.
`Crawl-delay`	Crawl-delay: 10	Definisce l'intervallo minimo in secondi tra le richieste successive del crawler.
`Disallow`	Disallow:	Disallow vuoto — consente l'accesso all'intero sito.
`Disallow`	Disallow: /	Blocca l'accesso all'intero sito per un determinato bot.

Esempio di file robots.txt

# tutti i bot
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /search?
Allow: /public/

# solo Googlebot
User-agent: Googlebot
Disallow: /no-google/

# blocca Bingbot completamente
User-agent: Bingbot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Domande frequenti

Il file robots.txt blocca l'indicizzazione della pagina?

Non esattamente. Il robots.txt dice ai crawler di non visitare determinati indirizzi, ma non garantisce che la pagina non appaia nei risultati di ricerca. Se un altro sito linka all'URL bloccato, Google potrebbe indicizzarlo senza visitarlo. Per bloccare completamente l'indicizzazione, usa il meta tag noindex o l'intestazione X-Robots-Tag.

Il file robots.txt è visibile pubblicamente?

Sì — il file robots.txt è sempre disponibile pubblicamente all'indirizzo /robots.txt. Non inserire informazioni sensibili sulla struttura del sito che non vuoi rivelare, poiché chiunque può leggerlo.

Qual è la differenza tra Allow e Disallow?

Disallow blocca l'accesso al percorso, Allow lo consente. Allow ha una priorità maggiore rispetto a Disallow quando entrambe le regole corrispondono allo stesso URL. Esempio: Disallow: /folder/ e Allow: /folder/pubblico/ — il crawler non entrerà in /folder/ ma entrerà in /folder/pubblico/.

Come verificare se il file robots.txt funziona correttamente?

Usa il nostro tester qui sopra — inserisci il dominio o incolla il tuo file e controlla se un URL specifico è bloccato per il bot selezionato. Puoi anche usare Google Search Console → Strumento di test dei robots.txt che mostra come Googlebot interpreta le regole.

Cosa significa User-agent: *?

L'asterisco * è un carattere jolly che indica tutti i bot. Le regole sotto User-agent: * si applicano a ogni crawler che non ha una propria sezione dedicata. Se un bot ha una sezione specifica (es. User-agent: Googlebot), applica solo le regole di quella sezione, ignorando quelle per *.

La mancanza del file robots.txt è un problema?

No — la mancanza del file robots.txt significa che tutti i bot possono scansionare liberamente l'intero sito. Questo è il comportamento predefinito. Il problema sorge quando vuoi bloccare determinate sezioni (es. /admin/, /staging/) o indicare la posizione della sitemap.

Tester robots.txt

Cos'è il file robots.txt?

Sintassi del file robots.txt

Esempio di file robots.txt

Domande frequenti