Home / Macroambiente / Ha davvero senso bloccare i bot delle AI?

Ha davvero senso bloccare i bot delle AI?

Apprendimento automatico e intelligenza artificiale nel marketing

Molti siti, inclusi quelli di importanti testate giornalistiche, hanno cominciato a bloccare i bot delle intelligenze artificiali per ragioni di sicurezza, privacy e tutela dei contenuti: i pro e i contro di tale scelta.

Sebbene l’Italia sia indietro rispetto ad altri paesi nell’uso e nello sviluppo dell’intelligenza artificiale, c’è nel Paese una sempre crescente consapevolezza sul tema dell’AI e delle sue numerose applicazioni e implicazioni. Molti gestori di siti web stanno facendo i conti al momento, per esempio, con la la necessità o meno di bloccare i bot delle AI e, cioè, di interdire loro l’accesso ai contenuti presenti sui siti. Quando è necessario e quando invece potrebbe rivelarsi controproducente?

Come funzionano i bot delle intelligenze artificiali

Per rispondere alla domanda precedente è utile comprendere meglio come funzionano bot come l’ormai molto diffuso ChatGPT.

ChatGPT opera sulla base dell’architettura GPT (Generative Pre-trained Transformer) e, cioè, utilizzando per generare risposte un modello di linguaggio basato su trasformatori.

Durante la fase di preaddestramento vengono impiegate tecniche di apprendimento non supervisionato e supervisionato.

Più tardi l’apprendimento per rinforzo con feedback umano (RLHF) rende lo strumento più affinato per compiti specifici.

GPTBot naviga sul web, come fanno gli altri crawler, alla ricerca di dati diversi dai dati di addestramento che contribuiscano ad affinare l’accuratezza, le capacità e la sicurezza dei modelli di AI.

GPTBot svolge un’analisi accurata del web e, cioè, filtra selettivamente le fonti con restrizioni di pagamento, quelle che violano le politiche di OpenAI, quelle che raccolgono informazioni personali identificabili, eccetera.

Tale approccio selettivo garantisce la raccolta di dati pertinenti ed etici, contribuendo a creare un pool di informazioni più completo e di conseguenza a migliorare le capacità dei modelli di AI.

Tra le caratteristiche distintive di GPTBot c’è il token utente agente riconoscibile, “GPTBot”, integrato nella stringa user-agent: questa firma permette a webmaster e gestori dei siti web di identificare la presenza di GPTBot sulle proprie pagine.

Come bloccare i bot delle AI

Se i proprietari dei siti web possono identificare GPTBot e altri bot simili, possono anche scegliere se consentire o meno l’accesso di tali bot ai propri domini.

Per prevenire l’accesso indesiderato alle risorse di un sito web ai bot di intelligenza artificiale una delle strategie più efficaci è modificare il file robots.txt: aggiungendo specifiche direttive si possono, infatti, bloccare i bot delle AI.

Se si volesse bloccare GPTBot dall’accedere all’intero sito, per esempio, s dovrebbe inserire la seguente riga nel file robots.txt:

User-agent: GPTBot
Disallow: /

Questa configurazione aiuta a proteggere i contenuti esclusivi e a controllare la distribuzione delle informazioni, riducendo il carico sul server e prevenendo usi non autorizzati.

Le testate italiane che hanno bloccato i bot delle intelligenze artificiali

Secondo un censimento realizzato da Pierluigi Tosto, head of SEO di Seed Digital, diverse testate online tra le più importanti del panorama italiano hanno già scelto di bloccare completamente l’accesso ai propri contenuti a  diversi bot di intelligenza artificiale.

A maggio 2024 nell’elenco comprende:

  • https://www.corriere.it/
  • https://www.ilsole24ore.com/
  • https://www.thewom.it/
  • https://www.gqitalia.it/
  • https://www.wired.it/
  • https://www.focus.it/
  • https://www.vanityfair.it/
  • https://www.vogue.it/
  • https://www.lastampa.it/
  • https://www.ilmessaggero.it/

Già una precedente analisi svolta da seed ad agosto 2023 aveva evidenziato come trend in crescita la pratica di bloccare i bot delle AI, stante il numero sempre maggiore domini che se ne stavano avvalendo.

Chi sceglie di non bloccare i bot delle AI è ignaro della minaccia, piuttosto, non la considera tale?

Perché le aziende potrebbero voler bloccare i bot delle AI

Oltre al già citato GPTBot, tra i bot delle intelligenze artificiali più noti e di conseguenza più frequentemente bloccati troviamo ci sono Anthropic, Google-Extended, Claude.

Le aziende possono scegliere di bloccarne il crawling per vari motivi, spesso legati alla protezione dei propri dati e delle informazioni in proprio possesso.

Le aziende sembrano preoccupate in particolar modo della possibilità che i dati proprietari vengano utilizzati senza un adeguato compenso e dal pericolo che un loro utilizzo improprio, non autorizzato e che violi i diritti di proprietà intellettuale finisca per minare la competitività del business.

Le aziende non sembrano meno preoccupate dalle possibili implicazioni legali: se i dati raccolti dai bot delle intelligenze artificiali vengono utilizzati in modo controverso, rischiano infatti di essere esposte a reclami per pratiche commerciali scorrette e ingannevoli secondo quanto previsto dal Federal Trade Commercial Act in America e dal Codice del consumo in Italia .

Spesso sulla decisione di bloccare i bot delle AI incide infine la volontà di prevenire l’uso non autorizzato di contenuti coperti da diritto d’autore: è più facile in questo modo proteggere gli asset creativi e intellettuali dell’azienda, avere maggiore controllo su come vengono utilizzati e attribuiti i propri contenuti e preservare l’integrità del brand e la fiducia degli utenti.

Bloccare GPTBot e simili: quali sono vantaggi e svantaggi

Bloccare l’accesso ai bot d’intelligenza artificiale ai contenuti web sembra avere, insomma, numerosi vantaggi.

Riassumendo, bloccare i bot delle AI

  • impedisce la scansione e l’utilizzo senza consenso esplicito dei contenuti del sito per l’addestramento dei modelli AI: ciò è fondamentale per proteggere i propri contenuti da riutilizzi non autorizzati;
  • riduce il carico sul sito e ne ottimizza le prestazioni dal momento che i crawler consumano risorse del server;
  • garantisce più controllo su come vengono utilizzati i dati presenti sul sito web, essenziale in un’epoca di maggiore attenzione alla privacy e alla proprietà dei dati.

Bloccare GPTBot e altri bot simili può avere, però, anche svantaggi come

  • limitare il progresso dell’intelligenza artificiale: i modelli AI necessitano, infatti, di data set ampi e diversificati per progredire; bloccare i bot potrebbe ostacolare questo progresso rendendo inaccessibili informazioni preziose;
  • minore visibilità: consentire ai bot l’accesso ai contenuti del sito in genere ne aumenta la visibilità dal momento che, soprattutto se sono utili e pertinenti, tali contenuti potrebbero essere utilizzati per migliorare le risposte dell’AI aumentando il traffico in entrata;
  • avere un controllo solo limitato: altri crawler o metodi meno noti potrebbero essere sfruttati per accedere a dati e informazioni aziendali con il risultato di non avere comunque il controllo completo sulla propria presenza digitale.

Bilanciare innovazione e controllo per contribuire come aziende allo sviluppo dell’intelligenza artificiale

Il dilemma se bloccare o meno i bot delle AI riflette, in conclusione, una crescente preoccupazione delle aziende per la privacy, la sicurezza dei contenuti, l’etica e più in generale la necessità di bilanciare innovazione e controllo.

L’aumento esponenziale di sistemi basati sull’intelligenza artificiale potrebbe mettere sempre più spesso, in futuro, editori e proprietari di siti web davanti a tale dilemma.

Come in parte già accennato, in uno scenario in cui la ricerca sta avanzando anche proprio grazie all’utilizzo dell’intelligenza artificiale, bloccare qualsiasi bot dal crawling potrebbe non rivelarsi una scelta vincente sul lungo periodo.

Essere citate all’interno di una risposta può rappresentare infatti, solo per fare un’esempio, una straordinaria occasione di visibilità per le aziende.

Nuove tecniche, che consentano per esempio di intervenire sulla natura della richiesta dei bot e cioè sul motivo per cui i bot delle AI visionano i contenuti del sito, potrebbero rivelarsi la soluzione migliore per tutelare sicurezza e integrità dei dati ma senza rinunciare alla visibilità e a contribuire allo sviluppo dell’intelligenza artificiale.

© RIPRODUZIONE RISERVATA È vietata la ripubblicazione integrale dei contenuti

Resta aggiornato!

Iscriviti gratuitamente per essere informato su notizie e offerte esclusive su corsi, eventi, libri e strumenti di marketing.

loading
MOSTRA ALTRI