Important information to be documented about ISTEX corpora and CorText Manager parser
Salut Ale,
Merci beaucoup pour ta réponse. Je trouve qu'ISTEX est très difficile à appréhender : il y a de multiples possibilités de requêtege et les données obtenues sont sous des formats variés et difficilement lisibles. J'ai fait des essais pour essayer de mieux comprendre les données qu'on peut obtenir avec ISTEX et ce qui est pris en charge par le parser de CorText manager (je n'ai pas répertorié les essais). Je cherche à mettre à jour la partie "ISTEX" de la documentation CorText, en essayant de préciser les informations qui pourraient répondre aux questions qu'un utilisateur risque de se poser en utilisant des corpus ISTEX.
Voici ci-dessous le texte que je propose de mettre dans la documentation CorText. Peux-tu m'indiquer s' il est juste ? Te parait-il pertinent ? Y-a-t-il des précautions à ajouter ?
J'ai juste encore deux autres questions par rapport au parser :
- je n'ai pas trouvé de champ permettant une identification directe de la source de l'article (= le journal) comme on peut l'avoir dans les corpus issus des autres moteurs de recherche web of science, etc.. ?
- a quoi correspond le champ "body_paragraphs" ? Faut-il le documenter (dans les corpus que j'ai testé, il semble peu exploitable) ?
Je te remercie, Bonne journée, géraldine
"Istex is a retrospective digital archiving of science service that provides access to a very large and rich collection of full text scientific articles, covering all disciplines and spanning over 700 years.
CorText manager automatically processes corpora requested on the ISTEX platform: it filters and rearranges the data contained in the different files from the downloded zip. This will allow you to work on the full text and some metadata. The data kept and structured by CorText manager are: full text, title, abstract, date, authors’ name, authors’ affiliation (addresses and countries), language and doi of the publication, ISTEX IDs. Note that for some documents, ISTEX zip contains initial and “cleaned” versions of the text. In that case, CorText manager automatically selects the cleaned version (you will then find the information "file: cleaned" in the "body_test_source" field of the database).
For building a corpus: Access to istex platform Build your query and fill in the options for selecting documents Choose the target usage for the corpus: "CorText" Download the zipped file Upload it into CorText manager and parsed it by selecting “istex” as Corpus Format As Istex is full text, the datasets may be big and take time to run some analysis.
Be careful that ISTEX allows access to very various source of data, it does a lot of data restructuring , data cleaning and OCRisation for some/old documents. Data quality may differ and can lead you to establish strategies for a good exploitation of the data."