-

Indexation pour la recherche d’information dans des documents techniques structurés multimédias

7 Avr, 2003

Pour citer cet article, utiliser la référence suivante :

Badjo-Monnet Bernadette, Bertier Marc, « Indexation pour la recherche d’information dans des documents techniques structurés multimédias« , Les Enjeux de l’Information et de la Communication, n°03/1, , p. à , consulté le , [en ligne] URL : https://lesenjeux.univ-grenoble-alpes.fr/2002/varia/01-indexation-pour-la-recherche-dinformation-dans-des-documents-techniques-structures-multimedias

Introduction

Depuis maintenant un certain nombre d’années, la quasi totalité de la production de documents textuels ou partiellement tels est réalisée à l’aide d’outils bureautique. Ceci, ajouté au volume considérable produit sans cesse, a conduit à la mise au point de techniques d’indexation automatique du texte intégral des documents électroniques. Désormais ces techniques sont opérationnelles comme le montre la prolifération de moteurs de recherche sur le Web. Par ailleurs, l’indexation de collections d’images est un souci déjà ancien dans le domaine de la recherche en science de la documentation (Hudrisier, 1982). De plus, des tentatives pour automatiser cette indexation font l’objet de nombreux travaux de recherche en reconnaissance des formes et en analyse d’images (Rasmussen, 1997, pour un état de l’art de la question). Cependant la synthèse des deux démarches, en vue de construire un système intégré d’indexation pour la recherche d’information dans les corpus multimédias, tarde à atteindre un niveau opérationnel convaincant. Notre sentiment est que cela tient, au moins en partie, à ce que la transposition de la tâche d’indexation aux documents mixtes (texte et image) ne doit pas se limiter à la juxtaposition de deux mécanismes, l’un dédié aux images incluses dans le corpus multimédia, l’autre dédié à la composante textuelle. Ceci est vraisemblablement valable pour l’ensemble des corpus multimédias ; en tous cas, pour les documents techniques, documents auxquels notre équipe s’attache particulièrement, cela nous paraît tout à fait marquant. Le présent article décrit un cadre méthodologique qui nous semble propre à fonder un modèle unique d’indexation pour la recherche d’information dans les corpus techniques mixant textes et images. Dans une première partie nous dégageons la problématique relative à l’indexation des documents techniques que nous situons dans le cadre général de l’indexation et de la recherche d’information. Nous essayons ensuite de caractériser l’image, que nous désignerons aussi par le terme plus neutre d’élément ou d’unité non textuel, dans le souci de clarifier le concept et afin de délimiter le sujet de l’étude. Nous abordons tout d’abord cette caractérisation sur un plan pratique, à partir de définitions généralistes. Puis nous envisageons les aspects théoriques en faisant appel à la sémiologie, science étudiant l’image en tant que signe porteur de sens. Quels enseignements peut nous apporter la sémiologie sur la nature, le traitement des images ainsi que les relations entre les deux modes, texte et image, susceptibles de nous aider dans l’objectif à atteindre par ce travail ? À la lumière de cette discipline, nous essayons de souligner les traits spécifiques des éléments non textuels des documents techniques susceptibles d’aider au traitement des modes texte et image, à leur indexation, puis à la recherche d’information. Une fois ces différents points éclaircis, nous tenterons de proposer les caractéristiques d’un modèle unique d’indexation du texte et de l’image dans une phase suivante de notre démarche qui fera l’objet d’un article ultérieur. Une version sensiblement différente de cet article est publiée par ailleurs (Badjo-Monnet, Bertier, 2000). Les contenus des deux articles se recouvrent notablement sur les aspects généraux, mais se distinguent sur les points que l’on a choisi d’y approfondir : à savoir la démarche méthodologique et les fondements théoriques pour le présent article, la technique d’indexation structurelle envisagée pour l’autre.

Problématique

Indexation et recherche d’information

Généralités

La problématique de la recherche d’information tient d’une part à la disponibilité d’une masse importante d’information contenue dans un corpus de documents, et d’autre part aux besoins en information d’utilisateurs potentiels. Pour satisfaire leurs besoins d’information, ces utilisateurs devraient lire tous les documents de ce corpus et retenir ceux (ou les parties de ceux) qui sont pertinents selon eux. L’indexation propose des outils susceptibles d’anticiper ce travail fastidieux d’investigation et de leur apporter ainsi une aide. Le problème de repérage dans cette masse de documents diversifiés, de ce qui est pertinent pour un utilisateur donné, se pose donc sérieusement. L’indexation se doit non seulement de faciliter le travail fastidieux de recherche, mais elle se doit surtout de satisfaire le besoin de l’utilisateur en lui apportant des éléments pertinents en un temps et à un coût réduits. L’indexation automatique des supports d’information émerge et tente d’apporter une solution au problème. Dans cet objectif ont émergé différents systèmes de gestion de l’information : bases de données documentaires informatisées, systèmes de recherche d’information (SRI), systèmes hypertextuels, qui abordent l’activité d’indexation selon différentes options mais avec le même but.

Procédures d’indexation de documents

Le résultat concret de l’étape d’indexation est premièrement la production d’index qui vont associer à chaque document (ou partie d’un document, voir plus bas) d’un corpus, des termes censés représenter les sujets dont ils traitent. En second lieu, l’indexation fixe des stratégies de recherche, qui vont utiliser les termes indexés pour repérer le document « pertinent » parmi la masse documentaire. Indexer un document c’est donc élaborer un jeu d’éléments censé le représenter au mieux, puis définir les moyens d’accès à ce document à l’aide de ces éléments représentatifs. On distingue deux types d’indexation : – l’indexation « manuelle » (ou à plus proprement parler, « intellectuelle ») dans laquelle on exploite une structuration hiérarchique rigoureuse et préalable d’un domaine de connaissance. L’extraction des mots du document se fait par rapport à cette structuration du domaine. De même le langage d’interrogation s’élabore-t-il dans un format prédéfini se référant à la structure du domaine d’application. – l’indexation automatique, qui utilise des méthodes algorithmiques. Il peut s’agir de techniques d’analyse statistique à base de comptages d’occurrences, ou de techniques linguistiques d’analyse morpho-syntaxique du texte : extraction de mots simples (unitermes) ou composés (synapsies). Les deux familles de techniques peuvent être combinées. Pour mettre en relief le contenu du document, l’indexation automatique part du document et non du domaine. Les deux types d’indexation aboutissent en gros aux mêmes procédés de recherche : accès par mots-clés, par thème, par auteur, etc. Cependant la différence entre les démarches de structuration introduit des différences notables dans les capacités de gestion du document. L’indexation automatique permet aisément une exploitation du document dans ses parties composantes ; objectif à peu près impossible à réaliser dans l’indexation manuelle. Pour le cas spécifique du document technique cette caractéristique de l’indexation automatique revêt une importance cruciale comme nous le verrons plus loin.

Les documents techniques

Caractérisation

La notion de documents techniques recouvre différentes réalités : rapports d’activités d’institutions, dossiers de tous ordres, pédagogiques, médicaux, etc. Ceux dont nous parlons ici font référence au domaine industriel et sont relatifs à un « dispositif » (qui peut être plus ou moins complexe) ou une classe de dispositifs similaires (gamme d’appareils, versions multiples d’un appareil). Le dispositif est le plus souvent matériel, mais pas toujours (système d’exploitation d’un ordinateur par exemple). Ainsi, le discours véhiculé se développe-t-il dans un « univers » relativement clos. Dès lors que le dispositif couvert est un système complexe, ces documentations atteignent des volumes considérables. Des cas extrêmes sont fréquemment cités dans les domaines de l’armement, du nucléaire civil et de l’aéronautique par exemple. À l’opposé dans le cas de dispositifs simples avec une documentation de faible volume, la production d’index et la recherche d’information perd évidemment toute pertinence. L’existence de nombreux cas se situant entre ces deux extrêmes valide la démarche de recherche de solutions standards. Typiquement les documents techniques comportent du texte (unités d’information textuelles) alternant avec une forte proportion d’images diverses (unités d’information visuelles). En ce sens, ils sont généralement multimédias, même si le plus souvent les éléments non textuels se limitent encore aux images fixes. Les documents techniques sont, par ailleurs, constitués de parties relativement indépendantes et pouvant être lues isolément ou dans un ordre plus ou moins libre suivant les compétences et les besoins du lecteur. Enfin, le discours est exprimé dans un langage spécifique sensiblement distinct de la langue académique. Ce langage présente des particularités stylistiques et semble présenter des limitations par rapport à la langue en général en raison par exemple de la prépondérance du mode descriptif ou d’un vocabulaire de spécialité. Il est cependant douteux que la complexité en soit pour autant réduite. Pour ce qui est de la mise en forme, une standardisation stricte est couramment imposée, par exemple : les caractères majuscules marquent les titres de chapitre, ou le changement de langue. Les caractères gras minuscules marquent les titres de paragraphes. Dans le corps du texte, le gras et l’italique servent à mettre en relief certaines idées forces.

Fonctions

Dans l’équipe Cristal du laboratoire Gresec, Céline Paganelli a montré que la recherche d’information dans les documents techniques constitue un cas particulier du fait du besoin opératif qu’elle exprime (Paganelli, 1997). Elle propose une typologie des demandes fondée sur la distinction entre demandes « objet » et demandes « action ». Ainsi, la fonction des documents techniques relatifs à un dispositif, apparaît-elle comme double. Leur lecture doit principalement permettre de trouver la réponse aux questions des types suivants : qu’est ce que xxx ? où xxx est (ou peut être) un composant de dispositif ; comment procéder pour yyy ? où yyy est une fonction du dispositif ou une opération le concernant.

Indexation de documents techniques numériques multimédias

Les documents qu’il s’agit de traiter sont enregistrés sur support numérique sans quoi tout traitement automatisé est impossible. Ceci pose la question du mode de codage et du format d’enregistrement. De nombreux modes de codages et formats d’enregistrement coexistent actuellement. Ils peuvent s’appliquer à des contenus de natures différentes (texte, image, son, etc.). Ils peuvent aussi se distinguer par leur caractère public ou « propriétaire ». Ils peuvent enfin présenter des caractéristiques techniques différentes. Comment dans ce contexte, opter pour les uns ou les autres ? Le caractère public et l’usage très généralisé des langages à balises (SGML, HTML, XML) les font s’imposer. Mais si l’on peut poser, par commodité pratique, le choix de traiter des corpus en HTML, cela ne limite pas pour autant le contexte de notre travail au Web. Les documentations techniques volumineuses sont au contraire souvent fortement confidentielles.

Comme indiqué plus haut, les documents techniques ne se limitent plus que très rarement à du texte, ils incorporent fondamentalement, au moins deux types de modes, le texte et l’image fixe (terme à préciser plus loin). La part non textuelle du document technique contient souvent une partie de la réponse aux questions ci-dessus. Donc le contenu des deux médias du document doit être représenté mais d’une manière homogène, unifiée et adaptée à une phase ultérieure de recherche d’information, elle-même unifiée et qui offrirait des réponses mixant les modes.

À la question « Qu’est ce que xxx ? », l’apparence visuelle du composant xxx est évidemment un élément de réponse pertinent. À la seconde question  » Comment procéder pour yyy ? », la réponse est une ou des actions à entreprendre dans une situation donnée, normale ou anormale. L’image fixe peut alors permettre d’indiquer visuellement où agir (l’image animée pourrait apporter évidemment une information précieuse sur la séquentialité).

La taille et la complexité d’un corpus de documents techniques fondent l’intérêt de la recherche d’information. Mais l’indexation manuelle des documents en texte intégral est alors longue et coûteuse et par conséquence impraticable.

L’indexation automatique du texte intégral et des unités non textuelles introduit une perspective nouvelle dans cette activité. L’indexation doit opérer sur les composants du document technique : les éléments textuels et non textuels. Les unités non textuelles du document technique sont souvent liées à des descriptions textuelles d’états ( dispositifs ou composants) et d’actions (procédures). Ces descriptions textuelles occupent par rapport aux unités non textuelles des positions diverses (avant, après ou juxtaposées) par rapport aux unités textuelles, et remplissent certaines fonctions particulières.

Notre problème ici concerne spécifiquement le traitement des éléments non textuels au même titre que le texte, dans un corpus multimédia. Il s’agit pour nous d’intégrer, dans l’index d’interrogation, des éléments qui permettent de retrouver ces « unités péritextuelles » (Froissart, Bertier, 1997), selon la même stratégie de recherche que celle du texte lors d’une requête donnée. Cela suppose d’abord une même méthode d’indexation appliquée aux deux sortes de modes.

De notre point de vue, l’image doit devenir dynamique, à savoir servir comme élément d’interrogation et occuper une place centrale (et non secondaire), la même que le texte. Une requête devrait restituer des textes ou des portions de textes ainsi que des images pertinentes, et non un ou des textes apparaissant avec toutes sortes d’images, à charge pour l’utilisateur de repérer la partie textuelle et non textuelle lui convenant, comme c’est le cas généralement à l’heure actuelle. Nous estimons que l’indexation multimédia ne devrait se confondre ni avec l’indexation d’images dans un fonds homogène, ni avec celle de l’indexation de textes. Elle devrait utiliser les éléments de la structuration de l’image comme ceux du texte pour permettre des recherches ultérieures sur ces médias. Dans cette optique quels sont les éléments à prendre en compte pour représenter le contenu d’un corpus de documents techniques multimédia ?.

Essai de définition de l’image

Il est difficile de définir l’image, car le terme couvre une multiplicité de réalités concrètes et abstraites plus ou moins distinctes. L’inventaire des usages du terme a déjà été tenté par divers auteurs. Il nous apparaît cependant inévitable d’y revenir ne serait-ce que pour fixer l’usage du terme que nous choisissons en ce qui concerne notre sujet.

Fondements pratiques

Le grand Larousse donne le sens étymologique du mot puis les définitions des diverses réalités (1) qu’il réfère dans trois grandes classes. De ces définitions multiples, certaines peuvent sans difficulté être exclues dans le contexte qui est le nôtre, les rubriques relatives au sens figuré, en particulier. À contrario la définition II.1 (« Apparence visible d’un corps reproduite par effet de la réflexion ou de la réfraction des rayons lumineux… ») est certainement celle qui nous concerne le plus directement. On peut se demander si les schémas techniques sont inclus dans l’une ou l’autre des rubriques de cette définition.

Fondements théoriques

Nous approchons ici, à travers la sémiologie, l’image dont nous examinons la définition, la typologie (qui élargit sa définition), les fonctions et les relations avec le texte. Du point de vue théorique, les sciences du langage, principalement la sémiologie avec C. S. Peirce, (inspiré de la linguistique de Saussure) considèrent l’image comme un signe représentatif de quelque chose. Le signe c’est quelque chose tenant lieu de quelque chose pour quelqu’un sous quelque rapport ou à quelque titre. Le signe a une face perceptible : representamen ou signifiant, ce qu’il représente, objet ou référent et ce qu’il signifie interprétant ou signifié (Joly, 1990). Cette définition, outre le fait d’intégrer toutes sortes de matérialités du signe (quelque chose peut être un objet, un son, une couleur) inclut la dynamique (pour quelqu’un) et la relativité de l’interprétation (sous quelque rapport ou à quelque titre) (Joly, 1994).

Types d’images et sémiologie

La sémiologie étudie les signes en tant que langage. Elle cherche à en dresser une typologie et à trouver des lois de fonctionnement des différentes catégories de signes pour en saisir les significations. Charles S. Peirce propose une typologie générale de l’image (2) à partir de celle des signes, qui se base sur le type des relations qu’entretiennent le signifiant et le référent (l’élément reproduit et l’objet du monde réel qu’il représente). Elle comporte trois classes, donc trois types de relations. Tout naturellement, Peirce place l’image en tant que signe dans la première classe : celle des icônes. Cette classe va à son tour se trouver subdivisée en trois sous-classes, toujours en fonction des types de relations d’analogie entre signifiant et objet référent. En fonction de ces niveaux d’analogie, il établit une typologie de l’icône (3).

À quel type d’image a-t-on affaire dans les documents techniques ? Ces objets correspondent aux images analogiques (icônes) et aux reconstructions de ces icônes, établissant des relations d’analogie interne ou diagrammes pour la sémiologie. Mais l’inscription de ces images sur support informatique leur donne une nouvelle dimension et nous amène à rapporter une troisième définition selon laquelle l’image serait aussi un ensemble structuré d’informations qui, après affichage sur l’écran, ont une signification pour l’oeil humain. Il est alors à remarquer que cette dernière définition inclut aussi le mode Texte.

Inventaire des fonctions assurées par l’image

Appréhendée comme langage, l’image a une dimension communicationnelle et à ce titre elle peut être soumise aux théories de la communication. Elle possède de ce fait les fonctions dégagées pour le signe linguistique par Roman Jakobson (4), selon lequel tout acte de communication verbale se rapporte à un référent, ou contexte auquel il renvoie ; un code, en partie commun aux destinateurs (terme utilisé en sémiologie pour émetteur) et destinataire du message ; un contact, canal physique pour établir et maintenir la communication.

Structure des images

La sémiologie distingue dans l’image, les signes iconiques, les signes plastiques et les signes linguistiques dont l’interaction produit du sens.

1. Le signe iconique est une unité visuelle permettant de reconnaître un objet (figures, motifs) avec lequel cette unité a une similitude de configuration.

2. Le signe plastique englobe les caractéristiques matérielles de l’image : la couleur, l’éclairage et la texture caractéristiques non spécifiques au signe image car ce sont des attributs de l’objet photographié et non ceux uniques de la photo ; les formes (ligne, carré triangle, rectangle, cercles, etc.) ; la spatialité ou composition interne des objets est l’élément plastique fondamental de l’image, elle joue le rôle essentiel dans l’orientation de la lecture de l’image. Les formes et la spatialité sont des caractéristiques spécifiques de l’image. Liés à la spatialité, le cadre ou limitation des dimensions et le cadrage relatif à la taille de l’image apportent des éléments à sa signification.

3. Les signes linguistiques ou relations croisées entre le texte et l’image : les relations entre texte et image s’expriment à travers les signes linguistiques et sont des relations d’interaction, et de complémentarité.

Les fonctions exprimées par ces relations sont selon Barthes (in Joly, 1994) : la fonction d’ancrage, « une forme d’interaction image/texte dans lequel celui-ci vient indiquer le bon niveau de lecture de l’image » (elle impose, fixe une seule interprétation à l’image ; la fonction de relais, « une forme de complémentarité entre l’image et le texte, celle qui consiste à dire ce que l’image peut difficilement montrer ». Elle exprime la temporalité et la causalité relative à l’image. Le texte relaie l’image pour un complément d’information ; la fonction de symbole.

La complémentarité verbale de l’image peut n’être pas seulement cette forme de relais. Elle consiste à donner à l’image une signification qui part d’elle, sans pour autant lui être intrinsèque (Joly, 1990, p. 106). C’est la relation de convention explicitée par l‘image : Colombe et Paix par exemple. Cette complémentarité montre que la ressemblance n’est pas la finalité de l’image.

Éléments non textuels des documents techniques et sémiologie

De cette brève analyse des différents aspects de l’image – typologie, structure, fonctions et rapport avec le texte – étudiés par la sémiologie, quels enseignements pouvons nous tirer pour notre travail ?

Catégories d’unités non textuelles

Les documents techniques ou du moins la grande majorité d’entre eux nous paraissent renfermer exclusivement, alternant avec des passages textuels, des icônes au sens général de Peirce, excluant les « indices » et les « symboles ». Parmi les trois types d’icônes identifiés par cet auteur, seuls semblent être représentés deux types d’éléments non textuels : – Les icônes analogiques qualitatives : c’est à dire des représentations d’objets du monde réel clairement identifiables ou images analogiques : des photos et dessins d’appareils. Voir ci-après, par exemple nos figure 1 (image analogique, ici une photographie. Crédit : www.motorlegend.com) et figure 2 (image analogique, ici un dessin. Crédit : www.motorlegend.com). – Les diagrammes au sens Piercien du terme, c’est-à-dire des schémas, des organigrammes reconstruisant ces photos et dessins pour en montrer la structure interne ainsi que des tableaux dont nous n’abordons pas les fonctions ici. Cf. ci-après figure 3 (exemple d’organigramme. Crédit : Bull)

Structure d’unités non textuelles

Dans les documents techniques, les descriptions textuelles d’objets sont associées à des icônes analogiques qualitatives qui répondent en présentant le dispositif ou ses composants sous leur aspect global. Les diagrammes par contre vont très largement exploiter le signe plastique, c’est à dire les caractéristiques matérielles propres de l’icône (forme et spatialité ), en montrant son aspect caché. La réponse peut faire apparaître des éléments d’ordre spatial ou liés à la forme des icônes. La spatialité : éléments d’ordre spatial – Composition des objets Les schémas reconstruisent la composition interne des dispositifs ou des objets constitutifs de ces dispositifs, non perceptible à première vue dans l’icône (structure statique). Ces schémas symbolisent des états de pièces constitutives des dispositifs présentés, dans leur ordre d’agencement normal. Il s’agit ici de relations de composition (Fourel, 1998). Les expressions linguistiques liées à ces unités non textuelles sont alors des substantifs, ou groupes nominaux, présentant la nomenclature des différentes pièces. Exemple : l’unité visuelle moteur à explosion (cf. fig. 1). La structure comprend : allumeur Delco, culasse, pompe à eau, volant moteur, carter d’huile, etc. – Enchaînement des objets Ces schémas peuvent représenter la structure de fonctionnement d’un dispositif, les différentes étapes de fonctionnement étant également des états successifs. Ici apparaissent les relations de séquence. Les descriptions textuelles sont soit une simple numérotation 1, 2, 3 soit des termes du type : premier temps, deuxième, troisième temps, soit encore comme ci-après dans notre figure 4 (enchaînement temporel. Crédit : www.motorlegend.com), des intitulés non explicites quant à l’ordre temporel. C’est l’ordre lexicographique qui l’indique implicitement. Le schéma présente quatre dessins correspondant aux quatre temps de ce fonctionnement, et des textes liés à chaque temps : premier temps, soupape d’admission ouverte ; deuxième temps, toutes soupapes fermées, etc. Remarque : il est intéressant de constater que durant la rédaction de ce texte, un schéma similaire présentant les quatre temps du moteur à explosion du site de motorlegend, a été remplacé par une animation accessible en cliquant ici. – Les problèmes de cadrage et de taille Les schémas présentent souvent les dispositifs ou leurs composants, sous différents angles de vues, dans différents formats. Le langage descriptif est ainsi constitué par le nom des pièces, la perspective et le format de l’objet : vue de face, vue de profil, format réduit, grandeur nature, échelle en cas de carte ou de mesure de précision (différents aspects revêtus par un objet). La forme Les icônes reproduisent les formes analogiques des objets. Pour les diagrammes, les relations hiérarchiques (composition) entre les différentes composantes d’une machine seront symbolisées dans un organigramme ou schéma particulier, avec des traits fléchés, des cercles, des carrés, etc.

Fonctions d’unités non textuelles

Les diagrammes, à côté de leur caractère descriptif de l’objet jouent un rôle primordial pour répondre à la question « comment procéder pour yyy ? » Dans l’expression du fonctionnement d’un dispositif également, le diagramme en réponse à cette question utilise des formes fléchées, des traits indiquant les manoeuvres à exécuter. Il y a alors surcharge textuelle de l’image de formes diverses, chaque forme exprimant une fonction particulière. Lorsque le diagramme présente un processus, les actions présentées par l’élément non textuel s’expriment à travers des verbes à l’infinitif, et soit une numérotation, soit des adverbes : avant, pendant, après, symbolisant l’enchaînement dans le temps de ces actions. Ici sont prises en compte les relations de séquence. L’approche de la structure des éléments non textuels du document technique, révèle trois types de relations : une relation de composition des objets dans les dispositifs ; une relation de séquence dans le fonctionnement et même dans la composition de ces objets ; une relation nécessaire, quasi obligatoire avec le texte. Ce sont ces relations qu’il nous semble nécessaire d’exploiter dans la modélisation des rapports textes images, dans l’espace du document, puis dans celui d’un corpus général où doit s’effectuer une recherche d’information. La description des unités non textuelles d’un document en général peut se baser sur treize types de relations entre ces objets, répertoriés par Allen (Allen, 1983) dans l’image 2D. Ces types de relation sont : la disjonction, le chevauchement, la couverture (covers-covered by), la proximité (touch), Nord, Sud, Est, Ouest. Pour l’image 3D, il donne quatre types de relations : près de, loin, devant et derrière. Nous ne pouvons dans le cadre d’un article développer tous les aspects de cette description. L’objet de notre travail n’est pas la description de l’image (bien qu’il ne l’exclut pas totalement) mais la recherche d’information dans un corpus de documents techniques. La description de l’image nous intéresse pour les éléments qu’elle peut fournir afin de résoudre notre problématique. C’est en ce sens que les relations établies « naturellement » entre les deux médias nous semblent intéressantes. Du point de vue de la sémiologie, l’élément non textuel joue une fonction essentiellement dénotative ou cognitive. Au niveau des rapports spécifiques texte-image (nous le verrons plus loin), la description textuelle des objets représentés joue le rôle d’ancrage défini plus haut par Barthes. Lorsque le contenu textuel décrit des procédures à exécuter, il renvoie à un ou plusieurs schémas numérotés, ou présentés dans un environnement textuel sobre composé d’attributs relatifs à la position des objets. La numérotation et/ou les attributs (signes linguistiques) expriment l’ordre d’enchaînement des objets dans le temps, et jouent le rôle de relais de l’image, les éléments textuels disant ce que ne peut exprimer l’image.

Observations sur corpus et analyse

Types de relation texte-image

L’analyse de la structure des éléments non textuels du document technique, nous l’avons vu, révèle une relation quasi obligatoire entre le texte et l’image. Quelles formes peut prendre cette relation ? Dans le bref examen d’un premier corpus de documents techniques, trois types principaux de relations s’établissent entre l’image et le texte.

Type 1

Un élément de la structure (abstraite) logique du texte est explicitement lié à un élément de la structure « logique » de l’image : titre d’un chapitre ou plus fréquemment d’une section ou d’un paragraphe, identique au titre de l’image. Cette relation est appuyée fréquemment par un renvoi explicite du titre du chapitre, paragraphe ou de la section à l’image, renvoi exprimé par « voir fig. »; « voir tableau »; « voir page »; « voir », etc. Cette image peut ainsi être positionnée immédiatement, ou plus loin de l’élément textuel titre. Il apparaît donc une relation entre le texte et l’image, exprimée par l’identité de l’élément structurel titre, la proximité immédiate des deux médias, et/ou le renvoi à une position plus lointaine de l’élément non textuel. La question que nous pose ce constat est la suivante : comment utiliser ces critères dans le traitement des médias ? Comment caractériser cette relation de similarité explicite entre le texte et l’image dans ce cas précis, pour qu’une requête ramène à la fois le texte et l’image dans le SRI ?

Type 2

Un élément de la structure logique du texte est mis en concordance « visuelle » avec l’image. L’image apparaît juste après cet élément structurel logique ou plus loin, souvent la section et le paragraphe, sans aucune indication explicite de lien. On a ici une situation inverse du cas précédent en ce sens que le lien permettant son interprétation, apparaît implicitement entre le texte et l’image. Une nouvelle question se pose : comment dans ce cas modéliser en l’absence de toute référence explicite la relation qui apparaît entre les deux médias, de manière intuitive ? Comment exprimer la relation implicite entre le texte et l’image dans un SRI, pour atteindre notre objectif ? Faudrait-il rendre explicite la relation en introduisant le renvoi et l’élément structurel auxquels se rattache l’unité non textuelle comme dans le type 1 ?

Type 3

L’image est disposée après un discours : soit le contenu textuel de la section ou du paragraphe qui la décrit (corps de texte) dans le contexte immédiat ; soit un commentaire spécifique, nouveau discours sur l’image reprenant des expressions de l’argumentation contextuelle globale, plus loin. Les termes descriptifs des deux types de discours nomment les parties de l’image et lui servent de légendes. La question posée ici est : quels éléments sélectionner dans ce troisième cas pour représenter le croisement texte-image ? Dans les cas des relations de types 1 et 2, l’indexation structurelle peut s’appliquer dans la mesure où l’unité documentaire descriptive appartient à la structure globale. Mais dans le cas des relations de type 3, il y a introduction de nouvelles données : les parties de l’image qui relèvent d’une autre structure, leur structure propre et le contenu descriptif du chapitre qui explicite l’image et la rend plus compréhensible. Ainsi l’indexation structurelle peut être complétée par ce que nous appelons une indexation « élémentaire ». L’extraction automatique des termes descriptifs représentatifs de l’image semble plus facile dans le cas où il s’accompagne d’un discours. L’homogénéisation de traitement aussi, puisque le discours peut se substituer à l’image.

Éléments exploitables

L’examen des relations entre le texte et l’image dans le document technique fait apparaître deux critères essentiels sur lesquels se basent ces relations. 1. La position des deux médias dans une structure globale imposée par la structure du document : l’élément non textuel relié explicitement ou implicitement aux éléments structurels du texte ; l’élément non textuel décrit explicitement ou implicitement soit dans le corps du texte, soit dans une section. Dans les deux cas l’image peut se situer dans la partie textuelle à laquelle elle fait référence, apparaître immédiatement en vis à vis, avant ou après (relations de séquence), ou débordant le cadre structurel immédiat elle apparaît plus loin (relations de référence). 2. La structure de l’unité non textuelle est prise en compte également. L’image (ou ses parties) est présentée soit globalement (icône), soit dans ses parties composantes ou ses fonctions (actions) dans un diagramme. Pour les trois types de relations texte-image dégagés plus haut, dans la mesure où l’élément non textuel s’intègre de façon explicite ou implicite dans la structure textuelle, la méthode structurelle est applicable aux deux médias. Dans les deux premiers cas la prise en compte des critères implicité-explicité doit certainement être envisagée. Lorsque la relation entre éléments textuels et non textuels est une relation de référence, c’est à dire au cas où un élément ou un ensemble d’éléments non textuels sont localisés en dehors de la structure locale à laquelle ils font référence, alors l’indexation structurelle devient insuffisante et plus complexe. Elle doit prendre en compte le phénomène des renvois et la localisation physique des éléments non textuels dans la structure locale semble s’imposer dans le modèle de représentation. Le cas des relations de type 3 introduit un niveau de complexité de plus, par le discours qu’il faut prendre en compte.

Conclusion

Que dire de l’apport de la sémiologie à l’étude du document technique multimédia et de son indexation ? Comment exploiter cet acquis pour la recherche d’information dans ce type de document ? Quels enseignements tirons nous de l’analyse pratique d‘un corpus de documents techniques, qui puissent également être exploités dans la même voie ? L’orientation de la sémiologie vers la recherche de production de sens par l’image diffère de notre optique. Nous appréhendons l’image dans le cadre de la recherche d’information dans des documents multimédias et cherchons à savoir si la prise en compte de ses différentes caractéristiques, par son indexation, peut aider à résoudre le problème posé au départ, à savoir retrouver dans une requête, textes et images concernant une même réalité. Comment l’image doit-elle se hisser au niveau du texte, c’est à dire constituer un critère de recherche, dans la recherche d’information sur un corpus multimédia ? Comment l’image doit-elle se soumettre si possible à un même traitement, c’est tout l’objet de notre préoccupation ici. La question des significations quant à elle reste donc marginale pour notre étude. À un niveau général d’étude des éléments non textuels, la sémiologie permet en appréhendant l’image comme signe, de dégager des caractéristiques communes aux multiples réalités recouvertes par le terme, de les regrouper en classe (même si la typologie n’est pas très pertinente dans notre démarche) et d’offrir un cadre terminologique à ses différentes caractéristiques. Cette typologie permet de mieux cerner les critères spécifiques de chaque type d’image, critères dont la modélisation de l’image peut certainement tirer profit. D’autre part, l’approche de l’image par sa structure, faite d’éléments iconiques (structure statique) et plastiques (structure dynamique), révèle comme nous l’avons vu l’interaction nécessaire entre texte et image. L’identification et la distinction des éléments plastiques de l’image, en particulier la spatialité, nous paraissent des critères d’importance à exploiter non seulement dans l’indexation de l’image mais dans les rapports entretenus avec le texte. Au niveau du document technique, cette approche nous paraît intéressante. Quelle aide peut donc nous apporter la prise en compte de ces caractéristiques mises en évidence par la sémiologie auxquelles l’analyse pratique se réfère ? Nous dégageons trois types de relations dans les rapports texte-image dans l’examen d’un corpus de documents techniques. Ces relations sont dans un premier temps des relations liées à la structure des éléments multimédias. Comment se situe l’image par rapport au texte ? Les types 1, 2 et 3, en remplissant la fonction cognitive de réponse à la question qu’est-ce que X, donnent un premier niveau d’appréhension du document multimédia, celui de sa composition : X images, pour X sections, X chapitres, etc. Puis la composition interne des X images ainsi que leur localisation dans les cas où les deux médias sont en position lointaine l’un de l’autre. Le type 3 est encore plus complexe, car une analyse du contenu de l’élément structurel discours s’avère nécessaire pour cerner la relation de composition interne du diagramme. Au terme de l’analyse de la théorie sémiologique de l’image et de ses pratiques de représentation, notre réflexion doit se porter ainsi sur les questions que nous nous sommes à chaque fois posées dans l’analyse pratique de notre corpus à savoir : – l’expression formalisée de relations implicites ou explicites entre texte et image ; – l’expression formalisée du discours sur l’image ; – la prise en compte dans la modélisation de la position des éléments non textuels et textuels du corpus. Nous pensons avec Fourel que « l’identification des éléments sensibles ou intéressants de l’image est nécessaire pour un système de Recherche d’Informations. Cette identification ne donne toutefois pas de sens à l’image. Elle permet de donner les composants symboliques de l’image et aussi la manière dont ils se composent à l’intérieur de l’image, par exemple un arbre est composé d’un tronc et de branches. Cette relation de composition entre éléments permet de structurer la description sémantique de l’image » ([Fourel, 1998, p. 96).

Notes

(1) Image : Le terme vient du latin imago : représentation, portrait (d’ancêtre) ombre d’un mort, copie, comparaison, parabole, apologue.
I. Apparence imitée
1. Représentation d’une personne ou d’une chose par un moyen artistique : image dessinée, peinte, gravée, sculptée. Représentation des êtres, objet d’un culte ou de vénération.
2. Toute représentation graphique d’un sujet quelconque qui n’a pas un caractère d’estampe précieuse ou rare. Image d’Épinal, image populaire illustrant une chanson, un épisode historique, une légende. Synonymes : chromo, illustration, gravure, dessin.
3. Sens figuré : qui imite quelqu’un ou quelque chose, par extension ce qui présente un rapport naturel ou symbolique avec un être ou avec une chose… à l’image de… en conformité avec. Synonymes : reflet, réplique, reproduction, modèle, symbole.
II. Apparence visible d’un être ou d’une personne
1. Apparence visible d’un corps reproduite par effet de la réflexion ou de la réfraction des rayons lumineux :
– image réelle en optique, image qui peut être reçue sur un écran placé au point où cette image se forme ;
– image virtuelle : image dont les rayons lumineux qui la forment semblent venir d’un point ou ils n’ont pas passé ;
– image rétinienne.
2. Reproduction d’un objet au moyen de diverses techniques (photographie, cinéma, télévision, radiologie).
3. Aspect d’un corps directement saisi par la vue.
4. Sens figuré : ce qui nous apparaît comme la représentation visible, comme le symbole sensible de l’invisible et de l’abstrait (le visage est l’image de l’âme). Synonymes : expression, incarnation, miroir, représentation.
5. Sens figuré : aspect nouveau ou particulier sous lequel un être ou une chose apparaît à quelqu’un. Synonymes : apparence, peinture, visage.
III. Apparence conçue
1. Représentation mentale produite par la mémoire : vision intérieure : idée, réminiscence, souvenir.
2. Représentation mentale produite par l’imagination : fantasme, rêve, vision.
3. Image de marque : opinion favorable ou non que se fait le public d’une marque commerciale et des produits de cette marque, puis par extension d’une personne ou d’une institution.
4. En psychologie : l’image est la persistance d’une impression sensorielle due à la réactivité du tissu nerveux central, c’est un signal sensoriel.
5. En littérature : figure, mot ayant pour effet de remplacer la représentation précise par une vision, une évocation originale.

(2) L’icône correspond à la classe des signes dont le signifiant entretient une relation d’analogie avec ce qu’il représente c’est à dire avec son référent. Un dessin figuratif, une photographie, une image de synthèse représentant un arbre ou une maison sont des icônes dans la mesure où ils ressemblent à un arbre ou à une maison. Mais la ressemblance peut-être autre que visuelle ; et l’enregistrement ou l’imitation du galop d’un cheval peuvent être en théorie considérés comme une icône, au même titre que n’importe quel signe imitatif : parfums synthétiques de certains jouets pour enfants, grain de skaï imitant le cuir au toucher, goût synthétique de certains aliments.
L’index ou indice correspond à la classe des signes qui entretiennent entre signifiant et référent une relation causale de contiguïté physique. C’est le cas des signes dits « naturels » comme la pâleur pour la fatigue, la fumée pour le feu, le nuage pour la pluie mais aussi la trace laissée par le marcheur sur le sable ou le pneu dans la boue.
Enfin le symbole correspond à la classe des signes dont le signifiant entretient une relation de convention avec ce qu’il désigne. Les symboles classiques tels les drapeaux pour les pays, ou la colombe pour la paix entrent dans cette catégorie, mais aussi le langage considéré comme système de signes conventionnels.

(3) La catégorie de l’image (au sens strict) rassemble les icônes qui entretiennent une relation d’analogie qualitative entre le signifiant et le référent. Un dessin, une photo, une peinture figurative, reprennent les qualités formelles de leur référent : formes, couleurs, proportions qui permettent de les reconnaître.
Le diagramme est fondé sur la relation d’analogie relationnelle interne à l’objet. Ainsi l’organigramme d’une société représente son organisation hiérarchique, le plan d’un moteur l’interaction des différentes pièces alors que la photographie en serait l’image.
La métaphore utilise un parallélisme qualitatif. Cette figure de rhétorique est perçue par Peirce « non pas comme une figure verbale mais comme un mécanisme, comme un procédé de substitution, mettant en relation une proposition explicite – ou montrée – mise en rapport avec une proposition implicite – ou non montrée – et entretenant avec celle-ci des relations de parallélisme qualitatif, ou de comparaison implicite ». C’est un procédé travaillant à nouveau sur l’analogie qualitative (comme l’image) mais cette fois de façon implicite et comparative.

(4) Selon que le message privilégie l’un ou l’autre des éléments du schéma, on aura une fonction de communication différente. C’est ainsi que Jakobson définit six fonctions principales à l’acte de communication verbale :
– fonction expressive lorsque le message est centré sur le destinateur du message.
– fonction dénotative ou référentielle ou cognitive, quand le message est centré sur le contexte.
– fonction conative, où le message s’efforce d’impliquer le destinataire et le manifeste par des procédés tels l’interpellation, l’impératif, ou l’interrogation
– fonction phatique où le message sert à établir le contact.
– fonction poétique, où le message se centre sur lui même.
– fonction métalinguistique dans laquelle le discours concerne le code de la langue (la seule fonction que l’image ne peut assumer).

Références bibliographiques

Allen, J.-F., « Maintaining knowledge about temporal intervals », Communication of the ACM, vol. 26, 1983

Badjo-Monnet, Bernadette, Bertier, Marc, « Vers un modèle d’indexation des documents techniques », In Document Numérique, volume 4, n° 1-2, 2000, n° spécial « L’indexation », sous la direction de Jean-Michel Jolion, Paris, Hermès-Sciences Publications, 2001

Bentes-Pinto, Virginia, thèse en sciences de l’information, université Stendhal, Grenoble, 1999

Bertier, Marc et al., Indexation des gros documents, rapport final du contrat n° 94, K. 6427, Gresec, 97/11, 1997

Betrancourt, Mireille, Caro, Stéphane, « Intégrer des informations en escamots dans les textes techniques : quels effets sur les processus cognitifs ? » in Les hypermédias. Approches cognitives et ergonomiques, sous la direction de André Tricot et Jean-François Rouet, Paris, Hermès, 1998

Fourel, Franck, Modélisation, indexation, et recherche de documents structurés, thèse d’informatique, université Joseph Fourier (Grenoble 1), 1998

Froissart, Christel, Bertier, Marc et al., Statut des unités d’information pertinentes pour la recherche dans de gros documents techniques : approches psycho-cognitive et linguistique, rapport interne, , équipe Cristal, Gresec, Grenoble, 1997

Hudrisier, Henry, L’iconothèque : documentation audiovisuelle et banque d’images, La Documentation française et INA, Paris, 1982

Joly, Martine, Introduction à l’analyse d’image, Paris, Nathan, 1990

Joly, Martine, L’image et les signes, Paris, Nathan, 1994

Le Grand Larousse de la langue française en 6 volumes, Paris, Librairie Larousse, 1973

Paganelli, Céline, La recherche d’information dans les documents techniques en texte intégral. Étude de l’activité des utilisateurs, thèse en sciences de l’information et de la communication, université Stendhal-Grenoble 3, 1997

Rasmussen, E.M., « Indexing Images », in Annual Review of Information Science and Technology, vol. 32, 1997

Auteurs

Bernadette Badjo-Monnet

.: Bernadette Badjo-Monnet est documentaliste de formation. Elle est doctorante dans l’équipe Cristal du laboratoire Gresec de l’université Stendhal à Grenoble, et termine sa thèse sous la direction de Geneviève Lallich-Boidin (université Claude Bernard, Lyon), sur le thème de l’indexation des documents multimédias.

Marc Bertier

.: Marc Bertier est maître de conférences en informatique et enseigne les systèmes d’information à l’IUT de Valence, université Pierre Mendès France (Grenoble 2). Il est depuis 1995, membre permanent du laboratoire Gresec. Il mène son activité de chercheur dans l’équipe Cristal et s’intéresse particulièrement à l’utilisation du traitement automatique de la langue dans la recherche d’information et à la structuration des documents numériques. Il appartient à divers réseaux sur ces thèmes, comme l’ISDN (Institut des sciences du document numérique, en région Rhônes-Alpes) et le RTP-Doc, réseau thématique prioritaire n° 33 du département Stic du CNRS.