Ignorare hidden div durante scraping per problema "Servizio online non disponibile"
Descrizione del problema
- Comportamento atteso: Il contenuto dei div nascosti non dovrebbe essere considerato durante lo scraping, evitando di fornire al chatbot false informazioni sullo stato dei servizi.
- Comportamento attuale: Nei siti scrapati, un div nascosto con scritto " Il servizio online al momento non è disponibile" viene salvato dal sistema. Il chatbot lo considera reale durante la RAG, causando informazioni errate.
-
Passaggi per riprodurre il problema:
- Aprire la pagina https://www.comune.trento.it/Servizi/Attivazione-SPID-in-Comune e verificare che il servizio sia attivo
- aprire la pagina di test del chatbot e chiedere nella finestra
Il servizio online per attivare lo SPID in comune è attivo? - Verificare che venga risposto di no
-
Ambiente:
- Versione del plugin Memory Updater: 0.0.10
Logs e output
Criteri di accettazione
- Il parser ignora correttamente i div nascosti durante lo scraping.
- La RAG del chatbot non considera più contenuti provenienti da div hidden.
- Nessun altro dato del sito viene erroneamente filtrato.
Casi di test
- Aprire la pagina https://www.comune.trento.it/Servizi/Attivazione-SPID-in-Comune e verificare che il servizio sia attivo
-
aprire la pagina di test del chatbot e chiedere nella finestra di Trento
Il servizio online per attivare lo SPID in comune è attivo? - Verificare che venga risposto di sì
Dettagli
- Aggiornamento parser per ignorare contenuto dei div hidden.
- Validazione sui siti reali già integrati nel servizio.
Edited by Marco Zampetti

