keyword clustering

Parte di capitello romanico con la simbologia dei nodi, Pieve dei Santi Cornelio e Cipriano a Codiponte, Casola in Lunigiana - da Flickr.


In questo approfondimento si vuole indagare il risultato delle SERP per un elenco di keyword per verificare se possano essere estratti utili indizi per la promozione SEO.
Si tratta del sito di un ristorante centrato su Torino; l'analisi dei servizi offerti, della concorrenza e frequenza delle keyword ha portato a scegliere questo elenco:
  1. ristorante vegetariano
  2. ristoranti romantici
  3. ostriche francesi ristorante
  4. recensioni ristoranti
  5. ristoranti tipici
  6. pacchetti completi con dj torino
  7. salone eventi torino
  8. ristorante pesce
  9. mangiare a torino
  10. locali per feste torino
  11. feste con dj torino
  12. mangiare all'aperto
  13. ristoranti particolari
  14. ristoranti a torino
  15. pesce fresco cena
  16. pietanze alla brace
  17. ristoranti bracerie
  18. ristoranti di pesce a torino
  19. dove mangiare a
  20. ristorante pesce alla griglia
  21. affitto sala per feste torino
  22. ristoranti economici
  23. ristorante cucina mediterranea
  24. cena a base di
  25. ristorante romantico
  26. plateau royale ristorante
  27. mangiare pesce a torino
  28. ristoranti pesce
  29. migliori ristoranti
  30. cena sotto le stelle
  31. carne alla brace
  32. cena con angus
  33. ristoranti
  34. ristorante pizzeria
  35. cucina piemontese
  36. ristorante

Per ognuna di queste sono stati analizzati i risultati di Google, anonimizzati e risultanti da un server fisicamente presente nella zona di indagine.
Escludendo gli indirizzi non utili ai fini della ricerca, si sono ottenuti da queste: 36 keyword, 3394 URL risultanti; per ognuna ne è stato rilevato il posizionamento.
Ordinando i siti risultanti per media dei posizionamenti ed estraendo i primi 30 risultati si ottengono i siti mediamente meglio posizionati:



Per ognuna delle keyword, presenti nelle colonne, viene indicato il posizionamento tra 1 e 100 con un colore tanto più forte quanto più vicino alla prima posizione.
Le keyword sono ordinate a seconda della loro presenza nei siti indicati.
Il sito in promozione risulta tra quelli indicati; evidenziando esclusivamente i siti direttamente concorrenti (cioè siti di altri ristoranti) risulta ottimamente posizionato; la tabella mostra il cofronto numerico tra le posizioni dei concorrenti:



A questo punto, per evidenziare quali siano i settori in cui si può ulteriormente migliorare il posizionamento, si ricorre al keyword clustering, raccogliendo in più gruppi le keyword in base ai risultati ottenuti dai posizionamenti.
Ogni gruppo sarà costituito da un certo numero di keyword; all'interno del gruppo ogni keyword avrà un'importanza più o meno grande.
L'algoritmo utilizzato è il k-means: è un algoritmo di clustering partizionale che permette di suddividere un insieme di oggetti in K gruppi sulla base dei loro attributi (fonte Wikipedia).
Viene in questo caso considerato il valore di posizionamento un attributo del sito, ed in base ad esso viene effettuato il clustering.
L'algoritmo k-means prevede che a priori venga definito il numero di gruppi o clusters da generare; nel nostro caso definiamo l'utilizzo di 8 cluster.
Avremo quindi 8 clusters nei qual il'importanza della singola keyword è variabile.
Per rendere immediatamente leggibile questa variabilità, l' elenco delle keyword del cluster viene rappresentato come tagcloud; ad esempio un cluster viene rappresentato in questo modo:


rendendo immediatamente riconoscibile il peso assunto dalle keyword più grandi.

L'algoritmo k-means a questo punto pesa la distanza di ogni sito dal cluster e assegna un cluster vincitore, cioè quello che più è rappresentativo. In questo modo per ognuno dei 3394 risultati, dai quali viene estratto il nome di dominio, avremo un cluster vincitore e potremo dividere in otto gruppi tutti i siti risultanti.
Per avere una idea della distribuzione:





Quindi per ogni cluster avremo un gruppo di siti a cui afferisce:




A questo punto sono stati isolati gruppi di keyword e relativi competitor, con cui sarà più semplice affrontare i posizionamenti con le operazioni di copywriting, interventi social e backlink.

Questo metodo viene utilizzato come primo affinamento per trovare sia le keyword che meglio descrivono un concetto per il posizionamento, sia per avere un elenco dei siti più simili per keyword a quello in promozione, e di conseguenza mettere in atto le opportune strategie di promozione.

Nel nostro caso il sito in promozione è presente nel quinto gruppo.
E' ora possibile lanciare un motore di correlazione come quello riferito altrove (http://www.linkomm.net/ranking-factors-variability.html, http://www.linkomm.net/google-e-semantica-keywords.html, http://www.linkomm.net/fare-seo-con-acqua-calda.html) per cercare tutte le relazioni esistenti tra i parametri che descrivono i siti dei concorrenti presenti in questo gruppo ed il loro posizionamento; le indicazioni che si ricevono risultano molto più raffinate rispetto a quelle 'generali' che altrimenti si sarebbero ottenute.
Questo perchè l'universo statistico e il corpus di documenti da analizzare questa volta non corrispondono a siti di diversa natura (es.: aggregatori, sistemi di rating, ecc) ma sono omologhi tra loro e direttamente concorrenti con il sito in promozione per posizionamento.

Se il motore di correlazione mostra, per esempio, un valore positivo per la correlazione tra l'uso di Pinterest e il posizionamento, tale indicazione avrà un valore più forte rispetto alla stessa indicazione ottenuta calcolandone il valore tra i 3394 siti.


Conclusioni


L'affinamento dei risultati delle SERP tramite keyword clustering può essere utile ad isolare i siti che più sono vicini per comportamento a quello in promozione, e di conseguenza ad individuare i parametri meglio correlati con un buon posizionamento.