Negli ultimi mesi ho speso diverse risorse ed energie per capire meglio come funzionano e quanto sono affidabili le statisiche su un sito web realizzato con wordpress. Non sto a spiegare quanto siano importanti le statistiche perchè mi sembra superfluo e non inerente all’articolo.
Vale la pena introdurre 2 concetti fondamentali prima di procedere:
1) il FEED Da wikipedia:
Il feed web è un’unità di informazioni formattata secondo specifiche [...]. Ciò per rendere interoperabile ed interscambiabile il contenuto fra le diverse applicazioni o piattaforme. [...] L’uso principale dei feed RSS (detti anche flussi RSS) attualmente è legato alla possibilità di creare informazioni di qualunque tipo che un utente potrà vedere molto comodamente, con l’aiuto di un lettore apposito, nella stessa pagina, nella stessa finestra, senza dover andare ogni volta nel sito principale. [...] Il web feed presenta alcuni vantaggi, se paragonato al ricevere contenuti postati frequentemente tramite email:
- Nell’iscrizione ad un feed, gli utenti non rivelano il loro indirizzo di posta elettronica. In questo modo non si espongono alle minacce tipiche dell’email: lo spam, i virus, il phishing, ed il furto di identità.
- Se gli utenti vogliono interrompere la ricezione di notizie, non devono inviare richieste del tipo “annulla la sottoscrizione”; basta che rimuovano il feed dal loro aggregatore.
Per chi non è pratico, in altre parole, gli RSS di un blog al quale abbiamo effettuato la sottoscrizione, permettono di visualizzare sul proprio browser (prendiamo internet explorer per esempio che personalmente non uso) le notizie di ogni sito internet (sottoscritto in precedenza) semplicemente cliccando sulla voce” feed” del browser.
2) Gli spiders sono tutti quei programmi che raccolgono informazioni per i motori di ricerca. Dato che non sono esseri umani, questi spiders vanno alla ricerca dei contenuti di ogni sito presente in rete e, con più o meno precisione, riescono a navigare tra tutte le pagine del sito web grazie a sofisticati sistemi. I motori di ricerca sfruttano a pieno questi programmi con risultati sorprendenti che spesso sfociano nell’hacking; alcuni tra i più famosi “robots” sono: Googlebot, Yahoo Slurp, MSNbot, bot e crawler.
Perchè diventano importanti questi spider nelle statistiche? Beh per un web server non è banale capire se la richiesta di navigazione del sito arriva da uno spider o da una persona, mentre si sa con certezza che il codice javascript solitamente non viene interpretato da questi utilissimi/pericolossimi robots ma viene interpretato soltanto dai browser (ergo utenti che aprono il sito web).
Tornando al discorso “statistiche web”, siamo vicini a capire come e quanto diventa importante riuscire a differenziare richieste di visualizzazione da parte di spiders, da parte di feed e da parte di utenti. Questa differenziazione è in grado di farla un utilissimo plugin di wordpress dal nome “statpress” che non utilizza javascript bensì codice php in grado di raccogliere tutte le informazioni di chi naviga nel blog. Vi rimando ai seguenti siti per il loro utilizzo:
http://www.pilloleinformatiche.it/wordpress/663/wordpress-plugin-statpress-per-le-statistiche/
http://blog.geniuswebsite.it/tag/wordpress-statpress/
Piwik il CMS opensource per le analisi web: arrivati a questo punto, introdurrò un’altra applicazione che lavora interamente tramite javascript, ovvero “piwik”. Come precedentemente indicato si tratta di un CMS atto all’analisi completa di siti web ed in particolare per blog realizzati con wordpress. Anche se questo prodotto è nato esplicitamente per blog, ciò non toglie che possa essere utilizzato per qualunque altro sito; si tratta di un prodotto incredibilmente efficiente e, unitamente a statpress, è in grado di fornirci un quadro veritiero e completo di come stanno evolvendo le visite sul nostro sito.
Sono rimasto stupito, infatti, di come le ricerche fatte (sto parlando di keyword ovvero parole chiave cercate sul motore di ricerca ed intercettate nel blog) su google, virgilio, ask, etc, siano catturate allo stesso modo sia da piwik che da statpress: la corrispondenza è sempre vicinissima al rapporto 1:1!
A mio avviso, le statistiche più veritiere rimangono sempre quelle che indicano le parole chiave cercate nei motori di ricerca ed anche le statistiche ricavate degli url di provenienza.
Altro dettaglio sulle statistiche: da dove arrrivano le visite? Come si fa a geolocalizzare le visite? Beh non tutti lo sanno, ma ogni modem collegato alla rete ha una precisa “targa” univoca: il famoso indirizzo IP. Dato che spesso l’IP viene fornito dinamicamente dagli ISP come telecom, libero, vodafone, wind, tiscali, etc, quando decidiamo di spegnere il modem perdiamo la nostra “targa” e ci verrà assegnata una targa differente appena il modem sarà riacceso. Ciò rischia di falsare le statistiche dei visitatori univoci che leggono il nostro blog, questo è un dettaglio da non sottovalutare nelle analisi web! Tuttavia grazie ai cookie, la maggior parte delle volte, le informazioni rimangono intatte e non si rischia di visualizzare 2 accessi al sito (con differenti indirizzi IP) invece di 1 accesso soltanto.
C’è un plugin per wordpress in versione beta – e purtroppo con alcuni difetti - ma pur sempre un valido appoggio… ip-logger, funziona solo su server php5. Si tratta di una applicazione abbastanza affidabile che non ha nulla da invidiare ad altri sistemi di geolocalizzazione. Per ulteriori chiarimenti sull’affidabilità della geolocalizzazione vi rimando al seguente link: http://www.goanalytics.info/quanto-e-affidabile-la-geolocalizzazione-degli-ip/
In questo modo abbiamo messo in piedi grazie a wordpress e a piwik un dettagliato sistema di analisi e di statistiche del nostro sito web, possiamo così capire chi arriva sul nostro sito web ed in particolare cosa stà cercando.
Hai osservato correttamente. Uso anche shinystat, la versione in prova. In effetti ho notato qualche differenza e in generale shinystat mi indica sempre meno utenti degli altri sistemi gratuiti. Usa un metodo più articolato e complesso per il calcolo delle visite, perciò non escludo che possa essere più affidabile di quelli gratuiti o GNU/GPL!
Grazie per il complimento…
Mattia
Ottimo articolo! Parli di statistiche ad uso gratuito giusto? Vedo che usi anche shinystat… Hai provato anche sistemi di statistiche commerciali? Che differenze hai riscontrato tre sistemi di statistiche gratuiti e a pagamento?
Grazie per il commento, comunque ho già provato un modulo piwik anche per drupal e sembra funzionare perfettamente!
Ecco il link del modulo: http://drupal.org/project/piwik
ciao
Ciao mattia!
Bell’articolo, semplice e comprensibilie anche ai non addetti ai lavori.
Sarebbe bello se riuscissi a scrivere qualcosa di simile anche per altre piattaforme, come Drupal o Joomla.
Complimenti anche per il restyling del sito