Cos’è il Robots.txt
Il robots.txt è un file di testo semplice, posizionato nella root di un sito web, che contiene direttive destinate ai bot dei motori di ricerca e ad altri crawler automatici. Queste istruzioni indicano ai crawler quali pagine o sezioni del sito possono o non possono essere esplorate durante la fase di scansione. Il file fa parte del Robots Exclusion Protocol, uno standard condiviso dai principali motori di ricerca per gestire il comportamento dei crawler nei confronti dei siti web.
È importante chiarire che il robots.txt non influisce direttamente sull’indicizzazione o sul posizionamento di una pagina nei risultati di ricerca. La sua funzione è quella di comunicare preventivamente ai crawler come muoversi all’interno del sito, aiutando a ottimizzare la scansione e a gestire contenuti non strategici, duplicati o sensibili.
A cosa serve il Robots.txt
Il file robots.txt svolge principalmente due funzioni:
- Gestire l’attività dei crawler: Consente di indicare ai bot quali aree del sito possono essere scansionate e quali devono essere escluse, evitando l’accesso a sezioni non utili ai fini SEO o a contenuti riservati.
- Ottimizzare il crawl budget: Il crawl budget rappresenta la quantità di risorse che un motore di ricerca dedica alla scansione di un sito. Attraverso il robots.txt è possibile limitare la scansione di pagine poco rilevanti, concentrando l’attenzione dei crawler sulle risorse più importanti per la visibilità organica.
Come funziona il file Robots.txt
Il file robots.txt deve essere accessibile nella directory principale del dominio, ad esempio:
https://www.sitoweb.it/robots.txt
Quando un crawler, come Googlebot, visita un sito, legge questo file prima di iniziare la scansione per capire quali regole seguire. Le direttive più comuni includono:
- User-agent: specifica a quale crawler si applica la regola (ad esempio Googlebot, Bingbot) oppure utilizza l’asterisco (*) per indicare tutti i bot;
- Disallow: blocca l’accesso a specifici percorsi o sezioni del sito;
- Allow: consente l’accesso a un percorso specifico anche in presenza di un divieto più ampio.
Alcuni crawler riconoscono direttive aggiuntive, come Crawl-delay, utilizzata per limitare la frequenza delle richieste al server. Tuttavia, non tutti i bot interpretano queste istruzioni allo stesso modo e Google, in particolare, non supporta ufficialmente il crawl delay.
Esempio di configurazione:
User-agent: *
Disallow: /area-riservata/
Questa direttiva nel file robots.txt impedisce ai crawler di effettuare la scansione delle URL appartenenti all’area riservata.
Robots.txt vs Indicizzazione
Un aspetto fondamentale in ambito SEO è distinguere tra scansione e indicizzazione. Il robots.txt controlla esclusivamente la scansione: se un URL è bloccato tramite questo file, i crawler potrebbero non visitarlo, ma la pagina potrebbe comunque comparire nei risultati di ricerca se viene linkata da altre pagine già indicizzate.
Per gestire direttamente l’indicizzazione di una pagina, è necessario utilizzare strumenti specifici come:
- il meta tag noindex;
- l’header HTTP X-Robots-Tag;
- la protezione tramite password.
Il robots.txt, quindi, non serve a “nascondere” contenuti dalle SERP, ma a guidare il comportamento dei crawler, migliorando l’efficienza della scansione e la gestione tecnica del sito.