Gestion du référentiel

Le référentiel est un ensemble de revues ou de conférences scientifiques, chacune associée à un ou plusieurs classement fournis par des sources. Le principe de CristHAL est de permettre d’adosser toute publication à une référence issue d’une source reconnue, internationalement ou nationalement. Mais il est également possible de fournir un classement ad-hoc, à partir d’une source dite « interne ».

La gestion du référentiel consiste à ajouter des sources, à les charger, et à chercher ensuite, pour chaque publication, la référence la plus proche.

Définition d’une source

Les sources sont fournies sous la forme de fichiers CSV. Selon la source, le format peut varier, et CristHAL propose donc un ensemble de fonctions d’import adaptée à chaque type de source.

Chaque fichier CSV doit contenir une première ligne qui indique la fonction de chqaue champ. Parmi ces champs, il faut au moins:

  • l’identifiant interne à la source

  • le titre de la revue ou conférence

  • le classement, selon une codification propre à la source

Voici les formats que quelques sources.

Scimago

Le site https://www.scimagojr.com/journalrank.php propose une classification de revues scientifiques dans de très nombreux domaines et sous-domaines. Pour chacun il est possible d’exporter en CSV la liste des références. Ce fichier contient une ligne d’entête et peut directement être importé dans CristHAL.

Dans le répertoire cristhaldir/install, vous trouverez quelques exemples d’exports CSV Scimago.

CORE

Une association scientifique australienne (http://portal.core.edu.au/) propose une classification des revues et des conférences dans le domaine de la science informatique. Les fichiers CSV ne contiennent pas de première ligne descriptive qui doit donc être ajoutée. Pour les conférences, cette ligne est la suivante:

ID,Titre,Acronyme,source,Classement,dblp,hasData,domaine,commentaires,notes

Pour les revues:

ID,Titre,source,Classement,dblp,hasData,domaine,domaine2,domaine3

Dans le répertoire cristhaldir/install, vous trouverez les fichiers CORE 2020.

Classements internes

Une source dite interne permet à une institution de définir son propre classement. Il peut être destiné à compléter les référentiels internationaux, par exemple pour indiquer les classements de niveau national ou les communications dans des conférences non référencées dans les sources existantes.

Il peut également servir à corriger les classements de référence. Enfin, il peut également servir à attribuer un classement Cédric (Q1, Q2, Q3 ou Q4) dans le cas où des revues ou conférences nationale à comités de lecture ont en fait une portée internationale qui le justifie.

Le fichier CSV doit contenir au moins les champs ID, Titre, Classement et Type (dont l’emplacement est défini par la première ligne d’entête. Voici un exemple du format attendu:

ID;Acronyme;Titre;Classement;Type
vertigo1;BDA;Conférence sur la Gestion de Données Principes, Technologies et Applications - Bases de données avancées;National;COMM
vertigo2;ISMIR;International Symposium on Music Information Retrieval;Q2;COMM

Pour produire un fichier source CSV importable dans CristHAL, le plus simple est d’utiliser un tableur. Dans cristhaldir/install, vous trouverez le fichier que nous utilisons au laboratoire Cédric (en le partageant dans un environnement collaboratif). Il contient la codification utilisée au Cédric, et un onglet par équipe. Chaque onglet peut être exporté en CSV avec Excel, OpenOffice ou Numbers.

Autres classements

Il est facile d’ajouter d’autres types de sources. Soit en changeant la première ligne pour indiquer les positions des champs importants, soit en demandant une extension de CristHAL.

Création d’une source

Dans le menu d’administration, accéder au choix “Sources” et au formulaire de création (Fig. 13).

_images/form-source.png

Fig. 13 Formulaire de saisie / mise à jour des sources

Les données à saisir:

  • le fichier CSV de la source

  • une description

  • l’identifiant de la source (unique) ; en combinant cet identifiant et celui, interne, de chaque référence de la source, on obtient l’identifiant unique d’une référence au sein du référentiel

  • le délimiteur des champs dans le fichier CSV (en général, le point-virgule, les fichiers CORE étant une exception)

  • le type de la source

Pour l’identifant des sources, utiliser une courte chaîne de caractères, par exemple core_revue, interne_optim, ….

La figure ci-dessous montre la saisie de la source contenant les revues de mathématiques de SCIMAGO. Le fichier est SCIMAGO-MATHS.csv dans cristhal/install.

_images/saisie-source.png

Fig. 14 Exemple de saisie d’une source SCIMAGO Maths dans le référentiel

Il reste à charger ou recharger une source pour l’indexer. Dans le menu Référentiel, la liste des sources apparaît, avec une option charger ou recharger.

_images/page-referentiel.png

Fig. 15 La page du référentiel

Le nombre de références d’une source est donné entre parenthèses après chargement (Fig. 15, après chargement d’un fichier CORE).

Interrogation du référentiel

La fonction « Recherche dans le référentiel » permet d’effectuer directement une recherche par mots-clés et d’obtenir une liste classée par pertinence descendante des 10 premières références correspondant aux mots-clés (Fig. 16).

_images/recherche_ref.png

Fig. 16 Formulaire de recherche dans le référentiel

C’est la même fonction qui sera appelée au moment du classement avec, en lieu et place des mots-clés, le titre de la revue ou le nom de la conférence. La procédure de classement proposera alors, pour chaque publication, les meilleures références possibles.

En utilisant directement le formulaire de recherche, on peut donc contrôler la présence dans le référentiel de revues ou de conférences, et vérifier que le classement par pertinence est correct.

La recherche fonctionne selon les principes classiques de la Recherche d’Information (RI) pour des collections de documents textuels. L’ordre des mots-clés est indifférent, chaque mot est soumis à différentes transformations et simplifications, et le moteur détermine un classement basé sur la similarité entre les mots-clés et le texte des références.

Les deux principales causes d’un mauvais classement sont:

  • Une saisie incorrecte ou incomplète du titre de la revue ou du nom de la conférence dans la publication ; il n’y a pas alors de meilleure solution que de corriger dans HAL et de recharger la collection.

  • L’absence de la conférence ou de la revue dans le référentiel. On peut choisir de l’ajouter, ou considérer que la publication est « Hors référentiel ».

Hors ces deux causes, le moteur de recherche devrait toujours être en mesure de trouver la meilleure solution.