Per configurare il crawler di contenuto in modo da evitare l'importazione di pagine Web non desiderate nel portale, effettuare le operazioni riportate di seguito.
Per impostazione predefinita, il crawler di contenuto
segue le indicazioni del Web server in merito alle pagine utili per i
crawler automatizzati. Se si desidera ignorare tali indicazioni, deselezionare
la casella di controllo Seguire i protocolli
di esclusione dei robot nell'indirizzo del sito.
In generale, tali indicazioni consentono di limitare il crawling del
contenuto non desiderato nel portale. In ogni caso, alcuni siti offrono
indicazioni molto rigide. Se il crawler di contenuto non importa alcun
contenuto da un sito, disattivare questa opzione.
Per impostazione predefinita, il crawler di contenuto salva gli URL nelle pagine Web importate con l'esatta combinazione di maiuscole/minuscole utilizzata nel sito Web di origine. Per convertire le lettere degli URL in minuscolo, selezionare Converti tutti gli URL in minuscolo.
Per evitare di importare contenuto da un'area di un sito Web oppure per evitare l'importazione di determinate pagine, effettuare le operazioni riportate di seguito.
Per specificare un'area da escludere, fare
clic su Aggiungi
filtro di esclusione{. Nella casella di testo immettere l'URL dell'area
del sito Web che si desidera evitare.
È possibile utilizzare la notazione basata su caratteri jolly (*)
per rendere più generale l'esclusione. Ad esempio, per escludere il crawling
delle informazioni sulle vendite da un sito, è possibile immettere http://mycompany.com*sales. Ne consegue
che il crawler non importerà le pagine da mycompany.com contenenti "sales"
in una posizione qualsiasi all'interno del relativo URL.
Nota: si presume l'utilizzo di caratteri jolly su una delle
due estremità del testo. Ad esempio, se si immette sales, il crawler non importerà le pagine
da qualsiasi sito accessibile
dall'URL di destinazione contenente "sales" in una posizione
qualsiasi all'interno del relativo URL.
Importante: se vengono elencate esclusioni e
inclusioni (descritte nel passo 5), le esclusioni vengono applicate
solo alle pagine incluse. Ad
esempio, in caso di esclusione di sales
e di inclusione di http://mycompany.com,
il crawler importerà tutte le pagine da http://mycompany.com tranne
le pagine contenenti "sales" in una posizione qualsiasi all'interno
del relativo URL.
Per rimuovere un filtro di esclusione, selezionare
il filtro, quindi fare clic su .
Per selezionare o deselezionare tutte le caselle di controllo relative alle esclusioni, selezionare o deselezionare la casella a sinistra dell'opzione Esclusioni.
Per impostazione predefinita, il crawler di contenuto non esegue il crawling né importa le pagine specificate nelle esclusioni. Se il crawler di contenuto passa da un collegamento su una pagina esclusa a una pagina non esclusa che deve essere importata, scegliere Esegui crawling delle pagine escluse, ma non importarle.
Per limitare il crawling a un'area di un sito Web o a una determinata pagina, effettuare le operazioni riportate di seguito.
Per specificare le posizioni in cui il crawler
di contenuto può eseguire il crawling, fare clic su Aggiungere un filtro di inclusione.
Nella casella di testo immettere l'URL dell'area del sito Web a cui si
desidera limitare il crawling. Poiché i siti Web possono contenere collegamenti
ad altri siti, è possibile utilizzare le inclusioni per mantenere il crawler
di contenuto all'interno di un sito specifico. Per escludere il crawling
in altri siti, aggiungere l'URL di base del sito in cui si desidera eseguire
il crawling nella lista di esclusioni. Ad esempio, http://mycompany.com.
È possibile utilizzare la notazione basata su caratteri jolly (*)
per rendere più generale l'inclusione. Ad esempio, se si desidera eseguire
il crawling solo sulle informazioni su Single Sign-On (SSO), è possibile
immettere http://mycompany.com*sso.
Ne consegue che il crawler di contenuto importerà solo le pagine da mycompany.com
contenenti "sso" in una posizione qualsiasi all'interno del
relativo URL.
Nota: si presume l'utilizzo di caratteri jolly su una delle
due estremità del testo. Ad esempio, se si immette sso, il crawler di contenuto importerà
le pagine da qualsiasi sito accessibile
dall'URL di destinazione contenente "sso" in una posizione qualsiasi
all'interno del relativo URL.
Importante: se vengono elencate inclusionied
esclusioni, le esclusioni vengono applicate solo alle pagine incluse. Ad esempio, in caso di inclusione
di http://mycompany.com ed esclusione
di sso, il crawler di contenuto
importerà tutte le pagine da http://mycompany.com tranne
quelle contenenti "sso" in una posizione qualsiasi all'interno
del relativo URL.
Per rimuovere un filtro di inclusione, selezionare
il filtro, fare clic su .
Per selezionare o deselezionare tutte le caselle di controllo relative al filtro di inclusione, selezionare o deselezionare la casella a sinistra dell'opzione Filtri di inclusione.
Per visualizzare la pagina associata a questo argomento della Guida, effettuare le operazioni riportate di seguito.