Google capisce le differenze?

Spot the difference, da wikipedia



Si fa un gran parlare di motori di ricerca semantici, che cioè associano le keyword digitate ai concetti che esprimono, e ci restituiscono l'elenco delle pagine che più corrispondono a questi concetti.

Quello che vorrei indagare in questo scritto è se effettivamente le cose stiano così, ed in che modo si possa trovare una corrispondenza tra i concetti inseriti e le risposte che Google ci da.

Per farlo, opero in questo modo:

  1. Creo un elenco di keyword che esprimano lo stesso concetto con parole diverse; volutamente rimango su argomenti di largo respiro, in modo da evitare nicchie di conoscenza che potrebbero con la loro specificità inquinare i risultati.
  2. Per quelle keyword, vado ad indagare i primi trenta risultati dati da Google Italia; dopo aver ricavato l'elenco dei siti, lo dispongo su una heatmap in modo da verificare se, per interrogazioni semanticamente simili, ottengo gli stessi risultati.
  3. Conduco analisi successive sui risultati; per esempio traducendo in inglese i termini usati, in modo da verificare che il comportamento del motore di ricerca non vari con la lingua.


I risultati che mi attendo sono di importanza capitale per me e per chiunque lavori nell'ambito della promozione organica dei siti sui motori di ricerca.

Da anni ormai ci si sgola su quanto ci si debba concentrare, nella promozione, sui concetti e non sulle singole keyword.

 Per esempio, non è ancora stato stabilito quanto sia importante usare le variazioni singolare/plurale della keyword da spingere, o utilizzare dei sinonimi. No sappiamo inoltre quanto sia necessario che questa keyword sia effettivamente presente  all'intero dei testi o metatesti del sito, o nei link, oppure se sia meglio insistere sul concetto che sta a monte piuttosto che sulla parola stessa.

Keyword utilizzate


Per ottenere le keyword, scelgo di concentrarmi su un argomento abbastanza generico: la vendita di abiti. Cerco alcuni sinonimi di 'vendita' e di 'abiti' , e moltiplico questi due elenchi tra loro. Ottengo così una lista di 4x5=20 keyword, che utilizzerò per interrogare Google.
primo elencosecondo elencoprodotto
vendita
shop
comprare
acquisto
vestito
vestiti
abbigliamento
abito
abiti
vestito vendita
vestito shop
vestito comprare
vestito acquisto
vestiti vendita
vestiti shop
vestiti comprare
vestiti acquisto
abbigliamento vendita
abbigliamento shop
abbigliamento comprare
abbigliamento acquisto
abito vendita
abito shop
abito comprare
abito acquisto
abiti vendita
abiti shop
abiti comprare

Analisi dei risultati da Google


Cerco su Google ognuna delle keyword e considero i primi 30 siti che appaiono nei risultati di ricerca; in totale ottengo totale di 600 risultati. Ecco i primi 30 siti ricorrenti disposti su una heatmap:


Ogni colonna rappresenta una keyword, ogni riga uno dei 600 siti nei risultati.
Quando la cella corrispondente all'incrocio sito/keyword è di colore rosso acceso, vuol dire che il sito appare nelle prime posizioni di Google; man mano che il rosso sbiadisce, si va verso posizioni più defilate. Il limite massimo è stato posto alla trentesima posizione, quindi analizzeremo i primi 30 siti così ricavati.
L'ultima colonna rappresenta la media dei risultati ottenuti dal sito, ponendo a 30 il valore quando il sito non compare nei risultati.
L'ordinamento ottenuto ci dice quale sito, per l'insieme delle keyword, risulta meglio posizionato.

Ciò che ci interessa particolarmente per la nostra analisi è notare la distribuzione a macchia di leopardo dei colori; ciò significa che le keyword utilizzate per Google non sono semanticamente equivalenti, oppure che non viene fatta un'analisi semantica delle keyword. C'è per esempio una grande differenza tra i risultati di 'abito vendita' e 'abiti vendita', nonostante il valore semantico sia praticamente identico.
Mettetevi nei panni del consulente SEO del primo sito: com'è spiegabile che esistano 'buchi' bianchi per i quali si posizionano meglio i concorrenti? Per 'vestito shop', ad esempio, arrivano prima di lui siti con valori ben più bassi nella SERP; inoltre sono meglio posizionati per 'vestiti shop'. Apparentemente la risposta di Google è illogica e inspiegabile.

Già da questa prima analisi possiamo trarre delle conclusioni. Confrontando le colonne delle keyword che declinano lo stesso termine al singolare o al plurale, si nota che ha una certa importanza utilizzare l'uno piuttosto che l'altro nelle strategie di promozione SEO, sia che si tratti di scrivere contenuti, cercare backlinks o intervenire sui social network.
Come porre rimedio se non investendo sulle singole keyword?

Qualche dato in più


Analizziamo ora più in profondità e controlliamo se esista una correlazione tra i risultati, cioè se le keyword siano tra loro correlate nei risultati che mostrano:

Per questa analisi viene utilizzato l'indice di Pearson, che misura il grado di dipendenza lineare tra due variabili, per ricercare la correlazione; quando vale 1 (blu) vuol dire che l'andamento nella SERP delle due keyword è correlato, viceversa quand'è negativo (rosso) non lo è.
Ordinando i valori delle coppie di correlazioni otteniamo le coppie di keyword per le quali Google riserva un trattamento simile, cioè per le quali risponde con siti simili:

Analizziamo quindi le correlazioni, e prendiamo ad esempio la più forte, che si verifica tra 'abbigliamento vendita' e 'vestiti vendita'. Per queste due keyword, Google si comporta più o meno allo stesso modo; possiamo dunque ipotizzare un sostanziale significato comune, percepito da Google, per i termini 'abbigliamento' e 'vestiti'. Allo stesso modo, in terza posizione troviamo un significato simile per 'abbigliamento' e 'abiti'.

Se invertiamo l'ordinamento, possiamo vedere per quali keyword, invece, non viene considerato un pari significato semantico. 
In ultima posizione, con un correlazione negativa di 0,5 troviamo 'abbigliamento shop' e 'vestito comprare': due termini che dovrebbero, invece, essere molto vicini.

Da questa prima indagine risulterebbe un funzionamento semantico di Google fino ad un certo punto, per l'italiano. Se analizziamo le differenze tra singolari e plurali il comportamento è simile, ma se inseriamo termini lessicalmente distanti anche se semanticamente vicini, come 'comprare' e 'shop', i risultati appaiono molto discordanti.

Ora riporto lo stesso esperimento; questa volta però effettuato con termini inglesi, per indagare se il comportamento possa essere diverso.
Questa è la distribuzione delle posizioni:

Questo è il risultato della correlazione dei termini:

In questo caso troviamo correlazioni forti tra 'dress' e 'dresses' che sono molto simili, ma anche tra 'outfit shopping' e 'outfit buy' dove appare chiara la correlazione tra 'shopping' e 'buy', parole semanticamente vicine ma letteralmente distanti. Così troviamo anche similitudini tra 'shopping' e 'purchase', 'apparel' e 'clothing', 'buy' e 'sale', 'shopping' e 'buy'.
Ecco le keyword che risultano tra loro più simili nel comportamento:

Tra quelle dal comportamento più differente, segnalo 'dresses purchase' e 'outfit sale', ed in generale la distanza tra 'dresses' e 'outfit'.
Sembra di poter concludere che per quanto riguarda l'inglese il funzionamento 'semantico' sia in qualche modo più marcato; in particolare la differenza singolare/plurale è minima, mentre è più marcata nelle keyword italiane.

Già che ci siamo: analisi dei fattori di ranking



Ora che abbiamo visto, che per l'italiano utilizzare 'vestito' o 'vestiti' porta a diversi elenchi di siti nella SERP, possiamo domandarci se anche i parametri di ranking possano allo stesso modo variare utilizzando il singolare o il plurale.

Scaricando i 600 documenti indicizzati e analizzandoli, si può ottenere l'analisi aggregata della correlazione tra i parametri misurati ed il posizionamento per le keyword utilizzate:

Dove la cella è chiara vuol dire che c'è correlazione positiva tra la keyword ed il parametro considerato, viceversa per le celle scure.
Basta un'occhiata (!) per rassicurarsi: se confrontate l'ultima riga con la quint'ultima vedete che gli stessi parametri correlati col posizionamento di 'vestito vendita' lo sono anche per 'vestiti vendita'; in particolare in questo caso vediamo che gli indici di leggibilità della pagina (Flesch/Vacca e Gulpease) sono fortemente correlati col posizionamento. Come consulente SEO consiglierei, nella redazione di contenuti per migliorare il posizionamento per queste keyword, di puntare su testi di facile lettura, con periodi brevi e sintassi semplice.
Altresì si può notare un comportamento opposto per quanto riguarda la lunghezza del titolo, correlato positivamente se la forma è plurale, negativamente se singolare: fenomeno interessante che dà da pensare,ma al quale non riesco a dare spiegazioni, se non 'correlation is not causation', come spiegano i seoguru.

Questo tipo di analisi del rapporto tra variazioni di una keyword e cambiamento dei parametri di correlazione con il posizionamento potrebbe portare a risultati interessanti, che saranno sicuramente oggetto di studi futuri.

Conclusioni


Le varianti con cui si presenta una keyword hanno una importanza fondamentale, ad oggi, nel definire i risultati di Google ed in genere la SERP.
Se alcune somiglianze possono essere intraviste nel comportamento generale dei fattori di ranking, le differenze possono invece essere marcate nel differenziare i posizionamenti.
Nel definire le strategie di promozione SEO quindi, penso sia bene tenere in conto tutte le varianti di una keyword, e non esaurire la promozione utilizzandone una sola variante 'sperando' che poi Google, 'intelligente' com'è, riesca comunque ad indicizzare il contenuto.
All'inizio di questo scritto mi chiedevo: Google capisce le differenze? La risposta è ancora parziale.
Forse un giorno lo farà, forse è molto vicino a farlo; ma oggi non sembra ancora in grado.

Links


Per le correlazioni: indice di Correlazione di Pearson, su Wikipedia
https://it.wikipedia.org/wiki/Indice_di_correlazione_di_Pearson

Le analisi dei dati sulle risposte Google sono condotte con automazioni Selenium
www.seleniumhq.org






Italo Losero