Robots.txt – è un file di testo che contiene parametri di indicizzazione del sito dando delle indicazioni agli spider delle SERP che scannerizzano il tuo sito. La mancanza di questo file comporta l’indicizzazione del contenuto indesiderato e problemi di caricamento del sito.
Robots Exclusion Protocol
E’ un protocollo standardizzato per tutte le SERP che seguono per indicizzare correttamente il contenuto delle pagine. Questo standard seguono i più grandi motori di ricerca come Google, Yandex ecc…
Richieste dello standard (R.E.P)
Il file robots.txt viene considerato da un motore di ricerca se:
- la grandezza del file non deve essere più di 500kb
- Il file deve essere nominato obbligatoriamente “robots” ed avere un estensione .txt
- Il file deve essere posizionato nella root principale del tuo sito web
Nel caso in cui il file dovese mancare, tutto il contenuto di un sito web viene considerato indicizzabile.
Raccomandazioni per il contenuto
User-agent * - // indica quale tipo di robot deve prendere in considerazione il contenuto del file (in questo caso l'asterisco indica tutti i robots) Disallow - // evita di indicizzare il contenuto di un pagina o di una cartella o file Sitemap - // indica dove si trova il file sitemap Allow - // indica l'indicizzazione di un file o cartella
Come creare un file robots.txt
Se stai utilizzando wordpress, in questo caso esistono varri plugin che ti permettono di gestire questo file ad esempio yoast seo, altrimenti dovresti creare nella root principale del tuo sito, un file chiamato robots con l’estensione .txt, indicare obbligatoriamente lo “User-agent” ed inserire parametri di indicizzazione. Ad esempio:
User-agent: * Disallow: /un articolo-qualsiasi Sitemap: rotedelsito.io/sitemap.xml
Direttive: disallow e allow
Se hai bisogno di escludere una pagina dalla ricerca, si utilizza Disallow. La mancanza di questo parametro permette di indicizzare tutto il sito.
Leggi anche: FTP (File Trasfer Protocol) – come funziona e a cosa serve?