SEO e dati strutturati di schema.org

Astronavi, via flickr


Schema.org e i dati strutturati

Schema.org è una iniziativa a favore del web semantico che consente di evidenziare gli elementi presenti in una pagina/sito per definirne il significato; nasce da una alleanza tra i colossi della ricerca, Google, Bing e Yahoo.
Da questi dati strutturati a volte Google ricava i 'rich snippet', cioè quelle modalità atipiche di mostrare i risultati del motore di ricerca; per esempio quando visualizza eventi, immagini, località per un sito invece di mostrarlo con la 'solita' modalità.
Ciò che rende appetibili i dati strutturati per il SEO è proprio all'origine della promozione stessa: 'far capire' al motore di ricerca cosa contiene la pagina in modo da poter essere ben indicizzato per quei contenuti.

schema.org

Da quando è nato schema.org si vocifera della effettiva influenza dei dati strutturati sui risultati di ricerca; questo studio vuole essere una analisi in questa direzione.
Va comunque premesso che, al di là di una effettiva importanza nell'indicizzazione, la presenza di dati strutturati migliora comunque la qualità delle pagine generate, soprattutto quando i dati inseriti non sono generici ma specifici.
Ad esempio esistono dati strutturati per indicare che la pagina ad un certo URL è un item, che contiene un product, che può essere venduto per un valore monetario definito in offer; questi sono dati generici. Ma si può andare avanti con dati specifici, indicando ad esempio che quella pagina contiene un product che è un vehicle, meglio definito come motorcycle. In questo caso il motore di ricerca non dovrà 'capire' dal testo e dalle immagini della pagina che ci troviamo di fronte ad una moto ma lo ricaverà direttamente dai dati strutturati.

Un web semantico, nel quale ogni pagina denuncia il proprio significato, si presta ad evoluzioni notevoli; una di queste già è visibile utilizzando motori specifici che cerchino nel web unicamente nei siti che espongano alcuni dati strutturati; ciò si può fare con le CSE, Customized Search Engine, che Google mette a disposizione.
Se, ad esempio, volete cercare un circolo di tennis vicino a voi non avrete che da cercare siti che espongano il dato strutturato TennisComplex accompagnato dai relativi dati di georeferenziazione, oppure semplicemente dall'indirizzo postale espresso col dato PostalAddress.
Potete vederne qui un esempio di motore di ricerca personalizzato, realizzato per il dato strutturato tennisComplex.

Certo, ad oggi la ricerca è difficile perchè pochi sono i siti che espongono dati strutturati specifici, anche se qualcosa si sta muovendo. E' bene trovarsi preparati ad un possibile futuro nel quale potrebbero essere mostrati o evidenziati solo quei siti che espongono questi dati.

L'implementazione


Implementare i dati strutturati in un sito è abbastanza semplice; alcuni CMS lo consentono o li inseriscono automaticamente, in altri casi si deve intervenire 'a mano' per inserirli nel codice delle pagine.
Esistono tre metodi per poterlo fare: RDFa, JSON-LD e Microdata.; rimando alle pagine di Google per una migliore esposizione, in questa sede cercheremo di capire quali sono quelli più utilizzati.

L'esperimento.

per circoscrivere nell'ambito delle azioni SEO lo studio poniamoci in una situazione reale; per esempio utilizzando quelle stesse 18 keyword precedentemente indicate per il settore assicurativo nell'articolo SEO vs pay per click? Strategie di backlinking nel settore assicurativo :
  1.  assicurazioni preventivi on line
  2.  assicurazione preventivi on line
  3.  preventivi rca on line
  4.  preventivi assicurazione rca
  5.  rca preventivi
  6.  preventivi moto
  7.  assicurazioni on line preventivi
  8.  preventivi assicurazione on line
  9.  assicurazione preventivi
  10.  preventivi assicurativi
  11.  confronta preventivi assicurazioni
  12.  polizza moto
  13.  polizza rca
  14.  polizza rc
  15.  polizza moto online
  16.  polizza rca on line
  17.  preventivi rca
  18.  preventivi assicurazioni on line

Con queste 18 keyword ci proponiamo di:
  • cercare i primi 50 risultati nella SERP di google.it
  • verificare come son stati implementati tecnologicamente i dati strutturati
  • verificare quali tipi di dati strutturati siano stati implementati
  • verificare se esista una correlazione positiva tra la presenza di dati strutturati e il posizionamento
eseguite queste operazioni potremmo trovare qualche utile indicazione sulla necessità o meno di prevedere o migliorare l'implementazione dei dati strutturati in funzione  SEO.

La ricerca dei risultati nelle SERP

 Ecco il risultato come heatmap dell'analisi per 18 keyword, nella SERP di Google individuati 841 siti validi, vengono mostrati i primi 30 per posizionamento medio.
Ordine verticale: siti ordinati per posizione SERP ricorrente e decrescente;
Ordine orizzontale: keyword ordinate per ricorrenza discendente.

In questa heatmap ad ogni arancione scuro corrisponde un buon posizionamento nella SERP, mentre più è chiaro più si porta verso la cinquantesima posizione; quand'è bianco significa che il sito non compare per quella keyword nelle prime 50 posizioni; questo grafico serve ad indicare i siti meglio posizionati.
Considerando tutti gli 841 siti ed i relativi posizionamenti per le 18 keyword possiamo ottenere il posizionamento medio del sito per il concetto espresso da quell'insieme di keyword; questo dato di posizionamento medio ci è indispensabile per riuscire a calcolare, più avanti, il valore di correlazione tra presenza di dati strutturati e posizionamento.

La modalità di implementazione

Alcuni CMS prevedono l'implementazione automatica di dati strutturati; forzatamente si tratta di dati generici e non specifici.
Come detto, l'implementazione può avvenire secondo tre diverse modalità tecniche. RDFa, JSON-LD e Microdata.

Google offre uno strumento per controllare la presenza o meno di dati strutturati e alla loro corretta implementazione; lo si trova a https://search.google.com/structured-data/testing-tool?hl=it, e se volete testarlo per verificare il dato tennnisComplex come prima accennato inserite l'url: http://www.icircolideltennis.it/a.s.d.-c2-valdellatorre-c2867.html, in risposta vedrete tutti i tipi di dati implementati tra cui tennisComplex che contiene i dati:


@type
TennisComplex
@id
http://www.icircolideltennis.it/circDetail
url
http://www.icircolideltennis.it/a.s.d.-c2-valdellatorre-c2867.html
name
A.S.D. C2 VALDELLATORRE
telephone
389 4754905
faxNumber
0119680434
email
c2asd@libero.it
map
http://maps.google.com/maps?z=10&t=m&q=loc:45.136888+7.477220
address
 
@type
PostalAddress
name
Via Alpignano, 23, 10040 Val della Torre Turin, Italy
geo
 
@type
GeoCoordinates
latitude
45.136888
longitude
7.477220

da questa tabella si può desumere l'importanza che può avere, nella promozione di una attività, l'esposizione di questi dati.

Sugli 841 siti in SERP viene verificata la presenza e la modalità di implementazione dei dati strutturati; questo il risultato:

 nessuna implementazione698
JSON-LD49
Microdata120
RDFa1

Possiamo quindi dire che la gran maggioranza dei siti in SERP relativi a questo settore NON implementa dati strutturati, che Microdata è la modalità più utilizzata da chi li utilizza, seguita da JSON-LD e solo molto marginalmente RDFa.

Ricerca della tipologia di dati strutturati implementati

Analizzando il tipo di dati inserito possiamo visualizzarne l'utilizzo dei siti al top della SERP ed in generale per tutti i siti.

Siti principali per posizionamento


Ogni riga indica uno dei siti posizionati, qui ne viene omesso il nome per motivi di spazio.
Qui vengono riportati i valori numerici in generale per tutti i siti considerati:

(WebSite)19.0
(BreadcrumbList)18.0
(Rating)11.0
(Breadcrumb)10.0
(ListItem)9.0
(Review-aggregate)7.0
(Product)7.0
(Website)6.0
(Person)6.0
(AggregateRating)5.0
(Review)5.0
(Article)5.0
(WebPage)4.0
(Organization)4.0
(Brand)2.0
(ImageObject)2.0
(WPHeader)2.0
(BlogPosting)2.0
(Offer)2.0
(LocalBusiness)1.0
(ItemList)1.0
(VideoObject)1.0
(PostalAddress)1.0
Ne possiamo desumere qualche osservazione:
il tipo relativo al breadcrum, cioè le 'briciole di pane' che guidano l'utente all'interno del sito è uno dei più utilizzati, anche perchè spesso ripreso direttamente nella SERP, come ad esempio la riga verde qui sotto


  • Il tipo  'website' è il più utilizzato, anche se molto generico e 19 utilizzi su 841 non sono quel gran che;
  • I tipi 'review' e 'rating' sono utilizzati; probabilmente il fatto che un oggetto/prodotto contenga recensioni ha un certo significato nell'economia della SERP
  • gli altri dati sono così poco presenti da essere quasi irrilevanti, ma è utile conoscerli per verificarne la possibilità di implementazione


Verifica della correlazione con il posizionamento


A questo punto abbiamo tutti i dati necessari e possiamo verificare se esista una positiva correlazione tra l'implementazione dei dati strutturati ed il posizionamento su google.it.
Per misurare la correlazione si utilizza l'indice di correlazione di Pearson che va da -1 (non c'è correlazione) a +1 (correlazione massima), questa la matrice di correlazione globale:



E questa l'estrazione della correlazione in funzione della posizione (ultima colonna del grafico precedente, ordinata per valori di correlazione discendenti):

(Article)0.10307170764685718
(BlogPosting)0.08226205254297668
(PostalAddress)0.07765642153013463
(Breadcrumb)0.053622043218796746
(ImageObject)0.0443628660913862
(Person)0.03822459543151387
(WebPage)0.01487385609740452
(WebSite)-3.3004364186054987E-4
(ItemList)-0.0010490663529404878
(LocalBusiness)-0.012404584505224962
(Organization)-0.026236526672223516
(AggregateRating)-0.03172873260547684
(WPHeader)-0.048351485154821634
(Brand)-0.048351485154821634
(VideoObject)-0.057714780088231964
(Review)-0.05816019147848349
(Review-aggregate)-0.07819560915616294
(Offer)-0.08636951922943102
(Product)-0.09230499091239942
(ListItem)-0.11125310826232561
(Rating)-0.12734619523992396
(BreadcrumbList)-0.1480317213652818
(Website)-0.16986744799613843


  • I valori di correlazione non sono molto alti, quantunque positivi in qualche caso
  • I valori positivi sono relativi a dati strutturati più specifici, mentre quelli più generici (es.: Website) mostrano valori prossimi allo zero  o addirittura negativi
  • Il dato 'article' assume la maggiore correlazione, indicando che pagine contenenti (almeno teoricamente) spiegazioni sugli argomenti considerati vengono valutate meglio
  • Il dato 'blogPosting' rafforza la considerazione precedente considerandola nell'ambito di una produzione continuativa di contenuti commentabili(blog)
  • Il dato 'postalAddress' indica l'importanza di un riferimento preciso sul territorio.

Conclusioni

Nonostante l'esiguità del campione (841 pagine web) qualche considerazione può essere desunta.
Sicuramente l'utilizzo di dati strutturati, almeno nel settore considerato, è agli albori. Ciò potrebbe essere una buona opportunità per chi cerca una strategia non ancora battuta dalla maggioranza dei concorrenti per poter emergere nelle SERP.
I dati più specifici sono quelli che sembrano essere più premianti per il posizionamento rispetto a quelli generici.
Nelle prossime analisi di posizionamento considererò anche l'influenza dei dati strutturati; tra qualche mese potrò proporre numeri più significativi ed una analisi più completa.

Linkografia

https://schema.org/
http://linter.structured-data.org/examples/
http://www.internetmarketingninjas.com/blog/search-engine-optimization/schema-org-guide-beginners-cheatsheet/
http://webdesign.tutsplus.com/articles/an-introduction-to-structured-data-markup--webdesign-8577
http://linter.structured-data.org/
http://www.webhouseit.com/microdati-google-e-i-rich-snippets/
http://www.vervesearch.com/blog/a-guide-to-rich-snippets-schema-and-microdata/
http://blog.woorank.com/2012/12/rich-snippets-what-why-and-how-to-implement/
https://www.drupal.org/project/schemaorg
https://www.w3.org/wiki/WebSchemas
http://www.michaelvittori.it/magazine/cosa-sono-e-servono-rich-snippets/

Italo Losero