Per comprendere a fondo la SEO e le dinamiche che la governano, è importante capire come un motore di ricerca analizza e organizza le informazioni che raccoglie.

Uno dei processi fondamentali che permette a Google, Bing, Yahoo e Yandex di indicizzare un contenuto è il cosiddetto crawling, ovvero il lavoro di un bot (o spider) volto ad analizzare a fondo una determinata pagina web.

Cos’è il crawling dei motori di ricerca?

Un crawler (detto anche web crawlerbot o spider) è un software che raccogliere dati da Internet: quando visita un sito web rileva tutto il contenuto che può analizzare, tutti i collegamenti interni ed esterni e li memorizza in un database.

L’obiettivo dei bot è quello di conoscere di cosa tratta ogni pagina in modo che le informazioni possano essere recuperate quando è necessario.

Sono chiamati web crawler perché “crawling” è il termine tecnico per accedere a un sito web e ottenere dati tramite una scansione automatica. I bot più diffusi utilizzati dai motori di ricerca più importanti sono:

  • Google: Googlebot (attualmente utilizza un crawler per le ricerche Desktop e uno per quelle Mobile)
  • Bing: Bingbot
  • Yandex (principale motore di ricerca russo): Yandex Bot
  • Baidu (principale motore di ricerca cinese): Baidu Spider
  • Yahoo: Slurp Bot

Come funziona il crawling?

Il motore di ricerca utilizza il crawling per accedere, scoprire e scansionare le pagine di una risorsa web.

A svolgere questa attività sono i crawler, che scansionano tutti i link, come quelli indicati nella sitemap, e seguono (in alcuni casi) le indicazioni riportate nel file robots.txt: un documento che definisce le direttive per la scansione di un sito web.

Tramite il file robots.txt, ad esempio, possiamo suggerire al motore di ricerca di non analizzare/indicizzare determinate risorse del nostro sito, mentre tramite la sitemap, ovvero una lista delle URL, possiamo tracciare una mappa che faciliti il lavoro di scansione da parte del crawler.

Questi ultimi fanno uso di algoritmi e di regole per stabilire con che frequenza sottoporre ad una nuova scansione una specifica pagina e quante pagine del sito devono essere indicizzate. 

Problemi di crawlability

Se hai ricercato keyword, target, creato contenuti pertinenti ma il tuo sito non risulta indicizzato correttamente e non hai un ritorno in termini di traffico, è molto probabile che si tratti di un problema di scansione.

Saper individuare tutti gli elementi che ostacolano o limitano l’accesso del crawling è fondamentale per far sì che il sito venga indicizzato correttamente.

Quali sono i più comuni problemi di crawlability?

URL bloccati da Robots.txt

La prima cosa che un bot cerca sul tuo sito è il tuo file robots.txt, all’interno del quale puoi indirizzare il crawler, specificando “non consentire” sulle pagine che non desideri vengano scansionate.

Il file robots.txt è molto spesso la causa dei problemi di scansione di un sito. Se le sue direttive sono errate, possono impedire a Google di eseguire la scansione delle tue pagine più importanti o permettere la lettura di quelle inutili ai fini dell’indicizzazione.

Puoi individuare il problema dal “rapporto sulle risorse bloccate” di Google Search Console, che mostra un elenco di host che forniscono risorse al tuo sito, che risultano bloccate dalle regole file robots.txt.

Errori di tag SEO

Una cattiva indicizzazione può dipendere anche da un uso sbagliato dei tag, se risultano potenzialmente fuorvianti per la lettura del bot, o se sono mancanti, errati o duplicati.

Un metodo veloce per individuare il problema è analizzare il traffico sul sito, principalmente il percorso degli utenti. Le pagine con la frequenza di rimbalzo più elevata possono rivelare delle criticità.

Usabilità mobile

L’usabilità sui dispositivi mobili è un’area di primaria importanza per la SEO: se il sito non è ritenuto utilizzabile su smartphone e tablet, Google potrebbe non mostrarli nella SERP e questo comporta la perdita di una bella fetta di traffico.

L’importanza della Sitemap per il crawling

La scansione delle sitemap è un’altra tecnica utilizzata dai motori di ricerca per trovare nuove pagine sul web, da cui reperire informazioni.

Le sitemap sono file con estensione .xml che contengono l’elenco dei contenuti da indicizzare del vostro sito.

Sono un ottimo strumento per fornire ai motori di ricerca un vero e proprio elenco delle pagine da scansionare e indicizzare.

All’interno delle sitemap, è possibile includere anche altre pagine del nostro sito, dove per esempio i crawler possono trovare contenuti più “nascosti”.