1. Le projet
Intitulé : RHECITAS : RHEtorique des relations de CITations dans les Articles de SHS
Responsable : Ludovic TANGUY
Laboratoire en charge du projet : CLLE (UMR 5263)
Organisme de rattachement : CNRS & Université de Toulouse le Mirail
Partenariats (publics, privés)
prévus à l’origine du projet :
- IRIT (CNRS & Université de Toulouse 3)
- Synapse Développement (Toulouse)
- INIST (CNRS, Nancy)
2. Etat d’avancement
Résumé des travaux effectués :
Rappel de l’objectif :
Ce projet vise à construire un dispositif automatique permettant, pour les publications scientifiques en français dans le domaine des SHS, de repérer et surtout de caractériser les relations de citations.
Études amont :
- État de l’art sur les catégories fonctionnelles des citations dans les publications scientifiques
- Étude linguistique sur un corpus de 10 articles publiés en SHS annotés manuellement
- Définition d’un ensemble de paramètres permettant de caractériser les citations
Définition d’un second corpus à plus large échelle pour l’étude automatique. Ce corpus a été défini sur la base :
- de la disponibilité des articles scientifiques dans les bases en ligne ;
- de la variété des disciplines au sein des SHS ;
- de la notoriété des revues.
Réalisation d’une première version d’une chaîne de traitement comprenant :
- la connexion à un site de publications en ligne, permettant d’extraire le texte intégral et les méta-données des articles sélectionnés ;
- le repérage automatique des références bibliographiques et des appels de citation ;
- l’analyse syntaxique automatique du texte ;
- l’application d’un moteur linguistique d’annotation automatique par grammaires locales des citations.
Construction d’un premier jeu de grammaires locales permettant de repérer certaines caractéristiques linguistiques d’un appel de citation notamment :
- le calcul du degré d’intégration discursive d’une citation dans un article (traduisant de fait l’importance de la référence pour l’article en question) ;
- l’extraction des termes associés à un appel de citation, permettant d’identifier les concepts repris de la référence correspondante.
Veuillez préciser le (les) prochain(s) livrable(s) à remettre au TGE Adonis (intitulé(s), date(s) de livraison) :
Rapport d’activité : fin 2008
Premier corpus plurisdiciplinaire annoté et catégorisé automatiquement : fin 2008
Principales difficultés rencontrées au cours des mois écoulés (personnel, équipement, développements à caractère technologique, ressources informatiques, etc.) :
Essentiellement des problèmes de développement informatique
Quelle part de la réalisation totale du projet estimez-vous aujourd’hui avoir achevée (en %) ?
50%
L’avancement des travaux est-il conforme au calendrier initial de réalisation du projet (indiquez si cela est possible une estimation de l’écart) ?
Retard de 5 à 8 semaines
Si le projet subit un retard, à quelles difficultés principales pouvez vous l’attribuer, et comment pensez vous pouvoir y remédier ?
Le montage de l’équipe actuellement en place a nécessité un ensemble de négociations administratives entre les tutelles, et le budget n’a pu être alloué qu’en juin.
En fonction du travail déjà fait, quelles prévisions de développement faites-vous sur 2009 ? dans quelles conditions ?
Le développement de l’année 2008 est consacré à la mise en place d’un prototype d’annotation automatique, sur une corpus réduit (en terme de disciplines, de formats de documents et de portails de publication en ligne).
L’année 2009 permettra d’étendre la couverture de ce prototype sur ces trois axes, et le déploiement de l’outil en l’intégrant à un portail, un méta-portail, ou via la mise en place d’un Web service.
3. Retombées scientifiques et/ou technologiques du projet
Retombées scientifiques. Veuillez préciser lesquelles si elles vous paraissent mesurables à ce stade de la réalisation :
Encore trop tôt pour le dire.
Retombées industrielles.
Idem.
Par rapport à l’objectif de départ du projet que vous conduisez, en quoi vous paraît-il concourir aujourd’hui positivement aux objectifs poursuivis par le TGE Adonis (L’annexe ci-jointe rappelle ces objectifs) ?
Les premiers résultats confirment la possibilité technique d’ajouter des fonctionnalités intéressantes aux différents outils de publication en ligne, et de permettre, à terme, de nouveaux développements bibliométriques dans des disciplines et des langues jusqu’ici délaissées.
Veuillez en particulier identifier au bénéfice de la Communauté des SHS et de votre discipline les possibilités de mutualisation ou de transfert déjà établies :
Les premiers corpus annotés au niveau des appels de citation pourront prochainement être diffusés, et permettre des collaborations interdisciplinaires sur les écrits scientifiques en SHS. L’étude en cours sur un corpus varié permettra une comparaison à large échelle des pratiques de citations entre les différentes disciplines des SHS.
Le développement de la chaîne de traitement, et notamment l’intégration de l’analyseur syntaxique Cordial (réalisés Synapse Développement) à un moteur d’annotation linguistique, est une avancée qui pourra intéresser de nombreux projets en exploitation automatique de corpus en langue française.
L’un des objectifs majeurs du TGE Adonis étant la réalisation d’un méta-portail des SHS favorisant l’interconnexion des ressources et leur accès, estimez-vous à ce stade que votre projet y contribuera ? et comment ?
Ce méta-portail pourrait être le support des relations identifiées entre les publications scientifiques en ligne sur les différents entrepôts et archives de la communauté.
Avez vous eu l’occasion de présenter le projet dans une conférence, un congrès, un article, depuis la décision de soutien d’Adonis ? Si c’est le cas, merci d’indiquer la manifestation ou la référence.
Non
4. Contexte budgétaire du projet
Part du budget total alloué au projet déjà versée par le TGE Adonis ( en %) :
100%
Part de ce budget déjà consommée (en %) :
80 %
5. Les débats et les échanges au séminaire
Quels thèmes souhaiteriez vous voir abordés lors du séminaire ?
Les publications en ligne, mais ce thème est déjà programmé (atelier C) !