Esclusioni pagine Web

Per configurare il crawler di contenuto in modo da evitare l'importazione di pagine Web non desiderate nel portale, effettuare le operazioni riportate di seguito.

  1. Per impostazione predefinita, il crawler di contenuto segue le indicazioni del Web server in merito alle pagine utili per i crawler automatizzati. Se si desidera ignorare tali indicazioni, deselezionare la casella di controllo Seguire i protocolli di esclusione dei robot nell'indirizzo del sito.

    In generale, tali indicazioni consentono di limitare il crawling del contenuto non desiderato nel portale. In ogni caso, alcuni siti offrono indicazioni molto rigide. Se il crawler di contenuto non importa alcun contenuto da un sito, disattivare questa opzione.

  2. Per impostazione predefinita, il crawler di contenuto salva gli URL nelle pagine Web importate con l'esatta combinazione di maiuscole/minuscole utilizzata nel sito Web di origine. Per convertire le lettere degli URL in minuscolo, selezionare Converti tutti gli URL in minuscolo.

  3. Per evitare di importare contenuto da un'area di un sito Web oppure per evitare l'importazione di determinate pagine, effettuare le operazioni riportate di seguito.

  4. Per impostazione predefinita, il crawler di contenuto non esegue il crawling né importa le pagine specificate nelle esclusioni. Se il crawler di contenuto passa da un collegamento su una pagina esclusa a una pagina non esclusa che deve essere importata, scegliere Esegui crawling delle pagine escluse, ma non importarle.

  5. Per limitare il crawling a un'area di un sito Web o a una determinata pagina, effettuare le operazioni riportate di seguito.


  1. Fare clic su Amministrazione.
  2. Aprire l'editor crawler di contenuto.
  3. A sinistra, in Modifica impostazioni oggetto fare clic su Esclusioni pagine Web.