Best practices per la sitemap XML e i Feed Rss/Atom

Quando si mette online un sito, tra le prime operazioni da fare c’è sicuramente la creazione e la successiva segnalazione della sitemap XML. Un’attività che Google consiglia vivamente tant’è che su Google Webmaster Tools c’è un’apposito strumento per fare la segnalazione della mappa xml o delle mappe xml.
Si possono creare diverse sitemap a secondo del contenuto: testo, video, immagini e news.

È bene tenere a mente le differenze e le diverse modalità di utilizzo di sitemap xml e Feed RSS/Atom, così come precisato da Google.

La principale differenza fondamentale tra i due formati sta nel modo con cui vengono descritte le URL che compongono il sito web:

  • Sitemap XML: generalmente di grandi dimensioni, possono ospitare fino a 50.000 URL e vengono scaricate meno di frequente sono formate da tutte le URL del sito.
  • Feed RSS/Atom: sono di dimensioni ridotte, vengono scaricate di frequente e sono composte solo dagli URL che corrispondono agli ultimi aggiornamenti del sito.

Tra le best practice consigliate da Google vi è l’utilizzo di entrambe poiché le sitemap XML forniscono al motore di ricerca le informazioni riguardanti tutto il sito mentre i Feed RSS hanno la funzione di segnalare solo le ultime modifiche e gli ultimi aggiornamenti effettuati.

Per comporre sia la sitemap XML che i Feed RSS esistono diversi tool online automatici ma è necessario conoscere alcune regole di primaria importanza per entrambe le tipologie di file.
I campi fondamentali sono quelli che riguardano la URL e l’ultima modifica.

  • URL: devono essere solo URL a cui il crawler del motore di ricerca ha accesso (non devono essere in disallow nel robots.txt, non devono essere pagine noindex, nofollow) e devono essere URL canonical, vanno quindi escluse tutte le URL duplicate (che per evitare problemi di duplicazione devono aver impostato il rel canonical).
  • Ultima modifica: con ultima modifica si intende data e ora in cui la pagina è stata modificata e va segnalato al motore di ricerca. A seconda della tipologia la codifica è diversa:

– Sitemap <lastmod>;
– Feed RSS <pubDate>;
– Atom <update>
È inoltre molto importante segnalare l’orario in formato W3C Datetime per le sitemap XML, RFC3339 per Atom e RFC822 per RSS e aggiornare l’ora di modifica solo quando il contenuto è stato modificato veramente.

Esempio di sintassi per la Sitemap XML

esempio sitemap

Esempio di sintassi per Feed RSS

esempio Feed RSS

Esempio di sintassi per Feed Atom

esempio atom feed

Best practices

Sitemap XML

  • Se si ha una sola sitemap XML e il sito cambia regolarmente va aggiornata quotidianamente tramite Google Webmaster Tools, operazione possibile anche tramite questa URL http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.tuosito.tld/sitemap.xml modificando la parte in grassetto con l’indirizzo della propria sitemap.
  • Se si hanno più sitemap XML è bene massimizzare il numero di URL per ogni sitemap. Va quindi inviata nuovamente ogni sitemap a GWT ogni volta che c’è un aggiornamento. Inserire poche URL per ogni sitemap rappresenta un errore che potrebbe rendere difficile a Google la scansione di tutte le sitemap.

Feed RSS/Atom

  • Quando si aggiunge una nuova pagina o una pagina vene modificata, va aggiunta la URL e la data di modifica ai Feed.
  • Al fine di evitare che Google perda gli ultimi aggiornamenti, ogni volta che il Feed cambia andrebbe segnalato a Google. Il modo più semplice e veloce è utilizzare uno strumento come PubSubHubbub che segnala il nuovo Feed a tutti gli interessati (motore di ricerca e lettori RSS).