Quella volta che un BOT ingannò Google, i lettori e gli organizzatori di un concorso

C’è stato un momento, l’anno scorso, in cui sembrava che i contenuti online sarebbero stati presto scritti da robot e basta. In realtà si trattava della solita notizia capita male e riportata peggio. Da giornalisti, fra l’altro. Che parlavano di robot giornalisti. Massimo Marchiori tagliava la testa al toro, relegando la faccenda intera a un semplice nuovo strumento da utilizzare: «le capacità di questi software si fermano qui, hanno un ambito molto limitato e sono quindi nient’altro che un nuovo mezzo del progresso, per far sì che l’uomo si possa dedicare a cose più elevate, piuttosto che a sterili esercizi di scrittura ripetitiva».

___STEADY_PAYWALL___

I software in questione, di fatto, non fanno altro che prendere una serie di dati e tradurli in linguaggio naturale (sono ottimi, per esempio, per rielaborare dati che fanno parte di percorsi fortemente ripetitivi, come ad esempio gli andamenti dei titoli in borsa o i terremoti).

Uno di questi prodotti, il più citato, con ottimi risultati per i produttori in termini di campagna pubblicitaria e di content marketing, si chiama Wordsmith. Lo usa, per esempio, l’Associated Press. Se tutti gli articoli che ne hanno parlato – in Italia come all’estero: per una volta non siamo stati i peggiori – avessero correttamente citato il fatto che, per esempio, una volta inseriti i dati, il software offre un editor testuale con il quale creare la propria storia (ebbene sì, l’intervento umano è necessario) si sarebbero evitati parecchi equivoci sul tema. Bastava aprire il sito ufficiale per scoprirlo.

Schermata 2016-03-24 alle 00.32.07

Scacchi, Go e contenuti digitali

Insomma,  una macchina ha battuto a suo tempo il campione del mondo di scacchi. Gli algoritmi di Google hanno fatto fuori a Go prima il tre volte campione europeo Fan Hui e poi hanno frantumato il leggendario campione Lee Sedol. Il quale è riuscito, su cinque partite, a vincerne solamente una che, secondo gli esperti, è una specie di capolavoro. In Italia non è stata una grande notizia (forse perché già gli scacchi li capiamo poco, figurarsi il Go). Però macchine, algoritmi e robot non stanno diventando giornalisti, non sono capaci di progettare le campagne social di Ceres, non gestiscono contenuti digitali audio, video o scritti di qualità. Possono, però, essere usati per storie ripetitive, dove non conta il bello scrivere ma l’essenzialità di poche informazioni. Difficilmente potranno mai unire i puntini. Al massimo produrranno news-commodity oppure contenuti di catalogazione (che alla fine sono ugualmente commodity).

Fine della storia?

Quindi archiviamo qui il tutto e passiamo ad altro, giusto? No. Invece no. Perché c’è una piccola storia che vale la pena di essere raccontata. È quella di un sito che parla di vino e prodotti alimentari. Si chiama vino-online.it e la sua storia è rimasta praticamenta confinata nella nicchia dei SEO anche se avrebbe meritato molta più visibilità.

Il sito in questione, in questo momento, ha qualche problema. Quindi, per vedere com’era, puoi seguire questo link utilizzando archive.org e navigandoci «nel passato» (sempre sia lodato, archive.org).

Di cosa si tratta?

Lo ha raccontato dopo oltre un anno dalla creazione del portale il SEO che c’è dietro al progetto, Ivano Di Biasi.

lo script di testo per vino-online

Per farla semplice, il sito è frutto di un esperimento che puoi iniziare a intuire guardando l’immagine qua sopra: i testi sono in italiano corretto ma sono generati da uno script che va a prendere alcune parole, sinonimi o contrari, da un database di termini, le inserisce in frasi di senso compiuto che riportano nomi (variabili) di vini e il gioco è fatto. Si parla di vino senza grosse competenze specifiche, con un linguaggio se vogliamo un po’ meccanico ma funzionale. Di certo non è un «bel leggere».

Di Biasi spiega così l’esperimento:

«L’idea dalla quale siamo partiti era di creare un sito in maniera completamente automatica, andando a realizzare un software che fosse in grado di “raccogliere” tutte le informazioni disponibili sul Web in relazione a una serie di parametri da noi definiti. Il nostro software, in pratica, partendo dal programma di keyword definite, ha individuato e visitato tutti i siti web che trattavano l’argomento di nostro interesse, andando poi a identificare i singoli “oggetti” in base ai parametri pre-definiti.

Nel dettaglio, i parametri da noi prescelti erano:

  • DENOMINAZIONE
  • COLORE
  • CATEGORIA
  • PROVENIENZA

In questo modo è stato possibile costruire un database di “oggetti” con tutte le proprietà specifiche il quale, tramite uno script, creato ad hoc e ovviamente ottimizzato SEO, è stato poi “tramutato” in un sito web con contenuti perfettamente organizzati e catalogati.

Ma l’eccezionalità di questo sito non finisce qui. Partendo da uno script (SPINTAX) da noi creato è stato possibile creare un testo autogenerato, e chiaramente personalizzato in relazione ai parametri specifici dell’oggetto, per ogni singola pagina del sito!»

E Google che fa?

In barba a tutti i discorsi sulla qualità, Google indicizza e posiziona il sito. Era il 2013, ma il sito appare ancora oggi in prima pagina delle SERP per una serie di keyword pertinenti di coda lunga (per dire: prova a cercare «vini rossi Sicilia». Io lo vedo al settimo posto in prima pagina (da finestra anonima).

Non solo: le pagine indicizzate sono ancora oggi oltre 6.300.

Schermata 2016-03-24 alle 00.52.21

Nel momento di massimo splendore, erano più di 10mila.

Va be’ ma le persone non si inganna

Il 2016 è l’anno del lettore, lo abbiamo ripetuto più volte. Forse il 2013 non lo era, però. Perché a quel sitarello «farlocco» succede questo. Succede che viene candidato ai Macchianera Food Awards 2013 (sezione dedicata al cibo e alle bevande del «premio» online ideato da Gianluca Neri, i Macchianera Italian Awards, già Macchianera Blog Awards). Di Biasi commenta così:

«La nomination ci ha fatto riflettere molto, non solo perché le candidature vengono fatte dagli utenti [così nell’originale], ma anche perché per essere ammessi alla fase finale, quella che premia i siti top 10, è ovviamente necessario passare delle fasi di valutazione e di “validazione” da parte degli organizzatori del concorso. Che sorpresa è stato quindi scoprire che il nostro sito autogenerato è stato capace non solo di indicizzarsi e di posizionarsi per n-keywords di long tail, ma che gli stessi utenti [sic] che l’hanno visitato non si sono resi conto della sua “natura”, ma l’hanno addirittura giudicato talmente utile da candidarlo a una competizione per premiarne la qualità!».

Ma poi la candidatura va a finir male, vero?

Dipende da come la vedi. Io direi di no. Il sito, infatti, passa alla fase finale (quindi viene anche, in qualche modo, validato dagli organizzatori. SI era all’ottava edizione del premio, che aveva anche sponsor importanti). Dopodiché, riceve 212 voti che gli sono sufficienti per arrivare nono su 10 nella classifica definitiva e che rappresentano il 5% dei voti totali espressi.

Schermata 2016-03-24 alle 01.00.12

Insomma. Un sito che, attraverso un’automazione, riesce a posizionarsi su Google per una serie – importante – di keyword di coda lunga riesce a convincere non solo Google, ma anche persone e organizzatori di un premio per «migliori siti».

Cosa ci insegna tutto questo?

Un sacco di cose.

Prima di tutto, però, ti consiglio di leggerti i commenti in calce al post sul blog del Tagliaerbe sul quale era stata raccontata la storia. Sono utili per capire (e anche per capire gli equivoci che si generano quando si fanno progetti del genere). Una volta fatto questo, possiamo fare alcune considerazioni.

Primo: il motore di ricerca si inganna.

Secondo: evidentemente, anche il lettore si inganna. O forse ci inganniamo noi? Pensiamoci con attenzione: stiamo parlando, nel caso di questo sito, di un lettore che, con ogni probabilità, ha bisogno di un’informazione schematica, senza fronzoli, dritta al punto. Di contenuti chiari, che contengono tutte le informazioni necessarie. E basta.

In uno studio che compara la scrittura umana a quella di robot (pdf integrale) i ricercatori Christer Clerwall, dell’Università di Karlstadt, e Hille Van Der Kaa ed Emiel Kramer dell’Università di Tilburg hanno notato che i «consumatori di notizie presentino una posizione neutrale rispetto ai contenuti “software generated”», che «la “creatività”, la “flessibilità” e le “capacità analitiche”» sono i punti di forza degli esseri umani che producono contenuti (in questo caso giornalistici, ma è evidente che si possa fare l’astrazione), mentre le macchine «hanno superato i “colleghi” umani nelle categorie “descrittivo”, “informativo”, “degno di fiducia” e “oggettivo”» [via EJO].

Quindi, per certi lettori che vogliono un certo tipo di contenuto, la scrittura asciutta, meccanica, «computerizzata» di un bot è sufficiente e risponde perfettamente a quel che cercano. Va capito, introiettato e utilizzato a proprio vantaggio. Non per far lavrorare i robot ma per capire, una volta di più, che ogni persona ha le sue esigenze e che ci sono strumenti che non consideriamo nemmeno lontanamente, ma che potrebbero essere usati per i nostri scopi lavorativi.

Infine, c’è la questione dei Macchianera Awards, che si può tradurre semplicemente così: i premi lasciano il tempo che trovano. Intendiamoci, uno è contento quando vince, ci mancherebbe. Lo dico con cognizione di causa, perché in Blogo ne abbiamo vinti. Ma se non si vince, pazienza: i premi non certificano un bel niente. Non discriminano nemmeno fra umano e robotico.

Ah, questo è il decimo arrivato fra i «miglior siti wine»: Googmakers.it. Una prece.

(24 marzo 2016)