3.1.7. Fusion des données
Afin de fusionner les données en une seule base, il
était préférable de trouver un langage commun. Pour passer
du langage End Notes (xml) à celui d'Alexandrie, le fichier a
été traité au format txt auquel les balises 4D ont
été ajoutées. Le thésaurus MeSH 2006 au format txt
a été parsé 61 pour récupérer le
contenu des balises afin de l'intégrer au logiciel Alexandrie
codé en balises 4D et ASCII. Ce travail a été
réalisé par la Société GB Concept. Cependant pour
réactualiser le thésaurus il est indispensable de passer à
nouveau par un script, ce qui ne sera pas réalisable, compte tenu du
coût. Cela est regrettable compte tenu de l'évolution de la
science et des nouveaux termes introduits chaque année. Pour le bon
fonctionnement de la base tous les slashs des intitulés ont
été supprimés. Il est évident qu'un travail en
amont d'harmonisation des bases aurait grandement facilité la
correspondance entre les tables et évité bien des doublons.
3.1.7.1. Mise à jour de la base Docmmont et
doublons
La mise à jour de la base de données Docmmont
est réalisée par des imports-exports. Ainsi tous les premiers
lundi du mois un export manuel sera réalisé par le Cerna sur le
serveur (dossier zip contenant un fichier au format txt). Les imports
automatiques dans la base Docmmont (poste du DMTM) ont lieu chaque soir dans le
type de documents « Interbase » servant à l'échange de
données et les pièces jointes seront dans un dossier temporaire
(AL Temp\echange\out\). Chaque nouveau fichier de données importé
supprime l'ancien. Il est donc impératif de vérifier les imports
régulièrement au risque de perdre les notices envoyées
ultérieurement. Cependant certains champs ne sont pas
exportés-importés comme les liens récursifs (Contient/
contenu dans et Voir aussi), les champs Cerna (références Cerna)
et le niveau d'autorisation (code intégré par script qui
empêche la publication sur le web avant sa validation par le
documentaliste).
Un champ N° auteur (table Auteur) et N°
référence (Table référence) a été
créé pour éviter les doublons dans la base. La table de
référence étant la base Docmmont, en présence d'un
doublon, la notice Docmmont sera choisie. Il faut tout de même
vérifier les champs des notices afin de conserver la plus
complète ainsi que celle mise à jour.
Cependant, lors de la fusion des données de nombreux
doublons se sont révélés rendant les résultats de
recherche dans la base, aléatoires (plus de 30 doublons pour un
même auteur). De
61 Parsé ; anglicisme vient de «to parse
» qui décrit le travail réalisé par un analyseur
syntaxique (récupération des informations contenues dans les
balises d'un document XML).
52
même que les mots clés en anglais n'ont pas
été traduits en français ni remplacés par ceux du
thésaurus MeSH. Il est à préciser qu'une notice
modifiée est considérée comme nouvelle. Ce qui pose le
problème suivant ; la notice est validée par Docmmont et contient
de nouvelles données, elle peut donc être effacée par une
autre mise à jour. Il convient alors de bien vérifier le contenu
des champs de cette notice avant de valider à nouveau.
Cependant pour l'envoi de notices de l'Arpe le système
est différent. L'envoi du fichier peut se faire sur le serveur mais lors
de sa réception, il faut valider les champs souhaités et ensuite
intégrer les notices dans la base. Certes l'idéal aurait
été d'harmoniser les champs des bases. Alexandrie en version
monoposte ne permet pas le changement de champs simultanés envers la
bases de données du Cerna. Toutes les modifications sont possibles mais
elles doivent alors être faites sur chaque poste ; celui de Marlhes (42)
et d'Albertville (74) pour le Cerna et celui de Paris pour l'Arpe.
L'éloignement géographique et l'impermanence des
bénévoles rendaient cette entreprise difficile. Par ce fait,
aucune mise à jour de la base commune n'a pu être testée.
Un script d'export de la base du Cerna d'Albertville vers la base commune
Docmmont a été réalisé. Il convient alors soit
d'abandonner la base de Marlhes (préconisation de GB Concept) ou de
s'assurer de sa mise à jour permanente avec celle d'Albertville.
Actuellement seule la base de Marlhes est gérée par le Dr Claude
Hébette. Linda Tamine, secrétaire du Cerna d'Albertville (base de
référence) est en congé maternité.
3.1.7.2. Les aménagements
effectués
ü Base du Cerna :
Le Dr Claude Hébette ne m'ayant pas autorisé
à voir les bases du Cerna, lors de la conception de la base commune,
quelques aménagements ont été réalisés pour
établir les correspondances avec la base commune Docmmont ; rajouter les
champs manquants ou les transformer en champs existants de la base Docmmont. Le
but étant de ne pas perdre de données. Lors de la création
de la base commune le Dr Claude Hébette m'avait affirmé avoir
fait les modifications dans ses bases mais ce travail n'avait pas
été réalisé au jour de l'analyse des
données. J'ai donc du choisir rapidement, afin que GB Concept alors en
plein travail puisse effectuer la fusion de données. Enfin, les
données des notices ne correspondent pas toujours à leur
catégorie, un tri manuel est donc indispensable.
o 53
Intégration des données dans les champs existants
;
- Les cotes issues de la classification Cando apparaissent
dans le champ «Cote» (liste fermée). Le champ «
Catégorie Cando » contiendra la classification qui n'a pu
être importé dans la base car le fichier n'a pu être fourni
par le Cerna.
- Les différents champs «titre» ; titre,
titre original et titre traduit ont été intégrés
dans le champ titre de Docmmont. La traduction du titre est alimentée
par un index en lien avec le champ titre. Pour l'activer il faut alors cliquer
sur le drapeau qui se situe à l'extrémité du champ titre
(plusieurs choix de langues sont possibles).
- Les champs date au format libre ont été
transformés en champs de type date. Le champ de type date est
imposé par la base de données pour une recherche pertinente
(opérateur de comparaison (< >).
- Le champ « Auteur » contient aussi un alias qui
permet d'écrire un pseudonyme ou le développement d'un acronyme.
Le nom de l'auteur étant enregistré dans l'alias certaines
notices ne contiennent pas d'auteur tandis que d'autres en contiennent
plusieurs dans le même champ (monovalué),
- Les champs « Organisateur cours stage » et «
directeur de publication » ont été reliés au champ
« Auteur » (ils étaient indépendants et ne pouvait donc
pas constituer un index commun aux différents types de documents.
o Catégories et champs créés ;
La catégorie « A classer » contient quelques
documents qui n'ont pas trouvé de correspondances dans les
catégories existantes et peu nombreux pour en créer de nouvelles.
Certaines notices ont été paramétrées au fur et
à mesure ont été transférées dans ce
dossier. Cependant, je n'ai pas trouvé l'information dans le manuel
d'Alexandrie pour réintégrer ces données dans une autre
notice existante dans la base Docmmont, ce qui m'imposait un recopiage des
champs. Le champ « Base émettrice » permet de connaître
le partenaire qui a enregistré la notice. En effet le Cerna à
inventorié plusieurs fonds et en indique la provenance. Le but est de
sélectionner la notice Docmmont comme notice de
référence.
Enfin les champs n'ayant trouvé aucune correspondance
ont été transférés dans un nouveau champ
appelé « champ Cerna ».
54
o Création d'un lien récursif ;
Un défaut de conception de la base (pas de lien
récursif entre une notice père-enfant) a créé une
certaine redondance des données. Le champ « Auteur »
n'était pas relié à la table référence ce
qui ne permettait pas de réunir toutes les données en un seul
index.
ü Base de l'Alpe :
Carlsson A J. Les mots
clés en anglais ont été placés dans l'index
«candidats ». Les séparateurs
entre les mots clés différent, tantôt un
slache ou une virgule ce qui rend difficile un Carlsson A.J.
transfert de données par script et a répercuté
quelques erreurs. Le séparateur n'étant
pas reconnu, les termes s'affichent dans un même champ
et sont traités comme un seul
Carlsson A ]
descripteur. D'autre part le logiciel End Notes ne prend pas
en compte les accents et les caractères spéciaux. Le
contrôle des doublons bien qu'effectué dans la base End Notes a
été contourné en utilisant un enregistrement
différent (ici doublons auteurs). Il faut alors rechercher avec les
différentes graphies du nom pour retrouver l'intégralité
des documents affiliés à un auteur. Il existe 10339 notices pour
16842 auteurs.
ü Le MeSH ;
La langue de référence du thésaurus est
le français, par ce fait les mots clés an anglais ont
été répertoriés dans une liste classée par
ordre alphabétique comme « candidat » alors que certains
figuraient dans le thésaurus MeSH.
Si un thésaurus ne tolère pas les doublons, GB
Concept a « forcé » le script afin d'intégrer les
données. Il faut alors réindexer* les notices contenant ces 3318
candidats pour les indexer avec le descripteur Mesh puis supprimer le candidat.
Ce traitement manuel sur 5000 notices de l'Alpe est très long même
si l'interface Alexandrie permet par l'intermédiaire d'un script de
remplacer un candidat par un descripteur existant, ce qui permet d'agir
simultanément sur un lot de notices, cela revient tout de même
à plus 3000 opérations... Il est aussi à préciser
que la traduction d'un descripteur n'est réalisable qu'en terme exact et
ne contient pas de notes ni de renvois ce qui peut engendrer des confusions et
une moins bonne pertinence des résultats de recherche et induire en
erreur le chercheur. En effet un médecin français recherche un
médicament par son nom courant « Aspirine » tandis qu'un
médecin anglais recherchera le nom de la molécule « aspirin
» en anglais mais « acide acétylsalicylique » en
français (les noms commerciaux des médicaments entrent dans
le MeSH progressivement). Il en est de même pour les
homonymes ou idiomatiques utilisés d'une langue à l'autre. Il
faut donc être très prudent lors du choix du terme français
et plutôt «penser » en anglais pour trouver le terme
français correspondant (la langue de base du MeSH est
l'américain). Exemple : « ambulance aérienne » (et non
hélicoptère ou en jargon DZ62) traduction de «
air ambulances ».
ü La base de données contient les termes de cinq
langues ; français, anglais allemand, espagnol et italien. Le fichier du
thésaurus MeSH en italien acquis tardivement (mai 2008) dans le projet
n'a pu être intégré dans la base de données, d'autre
part son surcoût n'était pas prévu dans le financement du
projet. C'est ainsi que j'ai procédé à
l'intégration manuelle des descripteurs en italien en reconnaissance du
soutien financier de la FMS et de l'USL partenaires du projet.
ü Exemple d'une recherche avec le terme « mountain
» (montagne). La recherche dans le thésaurus MeSH avec le terme
mountain renvoie vers trois descripteurs : Mal de l'altitude, Fièvre
pourprée de montagnes rocheuses, Alpinisme. On s'aperçoit ici de
la difficulté pour l'indexeur de décomposer les termes en une
équation de type MeSH. Exemple ; remplacer le terme (ligne1l n°
4204105) ; «infantile mountain sickness » par ces deux descripteurs ;
«Enfant» et «Mal de l'altitude ». Il est également
préférable d'ouvrir la notice pour la réindexer
d'après le document, en descripteurs MeSH.
11 4D Client - [Base de données :
Thesaurus]
0 Fichier
Aller a
Edition
F ·71 ·L.aj Imountain OK
Aide
Sélection Fenëtres
I - Descripteur · [record n°] · TO term.
Mots clés. Documents
p Dossiers
ease de données p Mountain accidents 5643105 Candidat A
colour atlas of mountain medecine;Psych
v r Documents [ educational programs in mountain medici 5525205
Candidat Mountain medicine education in Europe
A classer mountain climbing 5487105 Candidat
Cardiorespiratory response to exercise in el
arrr:va;re _adr p mountain medical 5162405 Candidat Le
médecin et la prépartion d'un trekking. Q
Arrrcte, depec. mountain sickness 5131005 Candidat Thrombosis at
mountain altitudes;Sp ironol
Audio visual t> chronic Mountain disease 4932105
Candidat Biological basis of chronic mountain sickne
cnaPitre L> mountain rescue 4502105 Candidat A colour
atlas of mountain medecine
~r,grès ~~ t> mountaineering injuries :. _ .
.. u. . aineerin. emergencies on Denali
Dossier n aineering 4338505 Candidat Ski mountaineering:
observa Ion
ntile mountain sickness 4204105 Candidat Subacute infantile
mountain sickne
§ ter$ase mountain medicine - i SG70., 8a.,d,d a[ - . _ .I
ogram at extreme altitu e: e
Qf°`a9e [0 mountain 3814505
Candidat The High Altitude Medecine Handbook;The
P age intemet i · mountaineering 3507405
Candidat Respiratory and metabolic characteristics or
Périodique b chronic mountain sickness 3376405
Candidat Chronic mountain sickness' pathology and
Recorecreadet P. Mal de l'altitude 2371705 Anoxie Case
Report' Transient Neurological Disor
s.ta i.,temet P. Fièvre pourprée des
Montagnes Rocheus 1569605 Rickettsios
< Tenter-dg.... P Alpinisme
Thèse- Mémo...
· Références Thesaurus 19
· Auteurs Andes mountains
· Personnes
® TG _ Candidat
Documents associés :
550305 Sports Médecine de l'alpinisme;Médecine de
mont
55
62 DZ ; Drop Zone signifie zone d'atterrissage de
l'hélicoptère. En jargon, l'hélicoptère peut
être appelé aussi DZ.
56
J'ai donc procédé à une traduction des
candidats en descripteurs MeSH suivants ;
Exemple de reclassement des candidats de l'Arpe en
descripteurs MeSH
|
Termes de l'Arpe
|
Descripteurs MESH
|
Cerebral edema altitude
Brain edema
HACE (Hight Altitud Cerebral Edema)
|
Oedème cerebral Altitude
|
Pulmonary edema
HAPE (Hight Altitud Pulmonary Edema)
|
Oedeme pulmonaire Altitude
|
Acute Mountain Sickness Chronic mountain disease Altitude
Sickness Mountain sickness
|
Mal de l'altitude
|
Cardio respiratory system
|
Appareil cardiovasculaire Appareil respiratoire
|
Diagnosis
|
Diagnostic
|
Frostbite
|
Gelures
|
Infantile mountain sickness
|
Mal de l'altitude Enfant
|
Mountain accidents
|
Accident Altitude
|
Radionuclide imaging
|
Scintigraphie
|
Ski mountaineering
|
Ski
|
Women Woman
|
Femmes
|
57
Exemple de reclassement des candidats du Cerna en
descripteurs MeSH
|
Termes du Cerna
|
Descripteurs MeSH
|
Accidents de ski
|
Accident Ski
|
Aide médicale urgente
|
Médecine urgence Service médical urgence Service
urgences Médecine d'urgence Soins première urgence
|
Campagnes de prévention
|
Prévention accident Prévention primaire
Prévention sinistre
|
Cinématique du genou
|
Mouvement Genou
|
Contentions souples
|
Contention
|
Coût des soins
|
Coût soins médicaux
|
Economie de la santé
|
Économie dentaire Économie hospitalière
Économie médicale...
|
Entorse du genou
|
Entorses Genou
|
Equipement du skieur
|
Équipement sportif Ski
|
Fractures basses de jambe
|
Fracture Tibia Fibula Jambe
|
Fractures de l'extrémité inférieure du
radius
|
Fracture du radius
|
Hypothermie
|
Hypothermie
Hypothermie provoquée
|
Laxité du genou
|
Traumatisme Genou
|
Pathologie de l'altitude
|
Maladie Altitude
|
Prévention
|
Prévention accident Prévention primaire
Prévention sinistre Médecine préventive
|
Prévention des accidents de ski
|
Prévention accident Ski
|
Problèmes juridiques
|
Jurisprudence Droit
|
Problèmes médico-légaux
|
Médecine légale
|
Sports d'hiver
|
Sports des neiges
|
Soins d'urgence
|
Soins première urgence Soins infirmiers urgence
Médecine urgence
|
Thèse de droit
|
Thèse Droit
|
Traitement
|
Traitement médicamenteux...
|
Traumatologie du sport
|
Traumatologie Sport
|
Le documentaliste maîtrisant les techniques
documentaires est capable de trouver le descripteur correspondant car il ne se
laisse pas emporter par le subjectif en suivant de près la
hiérarchie des termes. Mais il est aussi difficile à partir d'un
candidat très général de retrouver les descripteurs
correspondant ce qui requiert l'aide d'un médecin. En effet la base est
utilisée essentiellement par des médecins, il convient alors de
suivre leur logique associée aux techniques documentaires pour que la
recherche soit pertinente.
|