Best practices per la sitemap XML e i Feed Rss/Atom
Quando si mette online un sito, tra le prime operazioni da fare c’è sicuramente la creazione e la successiva segnalazione della sitemap XML. Un’attività che Google consiglia vivamente tant’è che su Google Webmaster Tools c’è un’apposito strumento per fare la segnalazione della mappa xml o delle mappe xml.
Si possono creare diverse sitemap a secondo del contenuto: testo, video, immagini e news.
È bene tenere a mente le differenze e le diverse modalità di utilizzo di sitemap xml e Feed RSS/Atom, così come precisato da Google.
La principale differenza fondamentale tra i due formati sta nel modo con cui vengono descritte le URL che compongono il sito web:
- Sitemap XML: generalmente di grandi dimensioni, possono ospitare fino a 50.000 URL e vengono scaricate meno di frequente sono formate da tutte le URL del sito.
- Feed RSS/Atom: sono di dimensioni ridotte, vengono scaricate di frequente e sono composte solo dagli URL che corrispondono agli ultimi aggiornamenti del sito.
Tra le best practice consigliate da Google vi è l’utilizzo di entrambe poiché le sitemap XML forniscono al motore di ricerca le informazioni riguardanti tutto il sito mentre i Feed RSS hanno la funzione di segnalare solo le ultime modifiche e gli ultimi aggiornamenti effettuati.
Per comporre sia la sitemap XML che i Feed RSS esistono diversi tool online automatici ma è necessario conoscere alcune regole di primaria importanza per entrambe le tipologie di file.
I campi fondamentali sono quelli che riguardano la URL e l’ultima modifica.
- URL: devono essere solo URL a cui il crawler del motore di ricerca ha accesso (non devono essere in disallow nel robots.txt, non devono essere pagine noindex, nofollow) e devono essere URL canonical, vanno quindi escluse tutte le URL duplicate (che per evitare problemi di duplicazione devono aver impostato il rel canonical).
- Ultima modifica: con ultima modifica si intende data e ora in cui la pagina è stata modificata e va segnalato al motore di ricerca. A seconda della tipologia la codifica è diversa:
– Sitemap <lastmod>
;
– Feed RSS <pubDate>
;
– Atom <update>
È inoltre molto importante segnalare l’orario in formato W3C Datetime per le sitemap XML, RFC3339 per Atom e RFC822 per RSS e aggiornare l’ora di modifica solo quando il contenuto è stato modificato veramente.
Esempio di sintassi per la Sitemap XML
Esempio di sintassi per Feed RSS
Esempio di sintassi per Feed Atom
Best practices
Sitemap XML
- Se si ha una sola sitemap XML e il sito cambia regolarmente va aggiornata quotidianamente tramite Google Webmaster Tools, operazione possibile anche tramite questa URL http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.tuosito.tld/sitemap.xml modificando la parte in grassetto con l’indirizzo della propria sitemap.
- Se si hanno più sitemap XML è bene massimizzare il numero di URL per ogni sitemap. Va quindi inviata nuovamente ogni sitemap a GWT ogni volta che c’è un aggiornamento. Inserire poche URL per ogni sitemap rappresenta un errore che potrebbe rendere difficile a Google la scansione di tutte le sitemap.
Feed RSS/Atom
- Quando si aggiunge una nuova pagina o una pagina vene modificata, va aggiunta la URL e la data di modifica ai Feed.
- Al fine di evitare che Google perda gli ultimi aggiornamenti, ogni volta che il Feed cambia andrebbe segnalato a Google. Il modo più semplice e veloce è utilizzare uno strumento come PubSubHubbub che segnala il nuovo Feed a tutti gli interessati (motore di ricerca e lettori RSS).