ALCESTE

 

 

Un Logiciel d'Analyse de Données Textuelles

  

Outil d'Aide à l'Analyse Automatique,

Rapide et Efficace

 

 

 objectifs

  

L'Analyse de Données Textuelles ou statistique textuelle est la méthodologie qui vise à découvrir l'information essentielle contenue dans un texte. Cette méthodologie, en forte progression, trouve ses applications dans tous les domaines où l'on traite des séquences de textes.

ALCESTE est un logiciel d'Analyse de Données Textuelles, issu du CNRS, avec le soutien de l'ANVAR. Il a été adapté au MACINTOSH et au PC par la Société IMAGE, société spécialisée en mathématiques appliquées et en développement de logiciels scientifiques.

Le logiciel ALCESTE permet d'effectuer de manière automatique l'analyse d'entretiens, de questions ouvertes d'enquêtes socio-économiques, de recueils de textes divers (œuvres littéraires, articles de revues, essais), etc.

L'objectif est de quantifier un texte pour en extraire les structures signifiantes les plus fortes. Les recherches ont montré (J.P. BENZECRI, M.REINERT) que ces structures sont étroitement liées à la distribution des mots dans un texte et que cette distribution se fait rarement au hasard. Décrire, classer, assimiler, synthétiser automatiquement un texte, tel est l'intérêt présent du logiciel ALCESTE.

 

METHODE UTILISEE

La Classification Descendante Hiérarchique est la méthode utilisée par ALCESTE. Cette méthode procède par fractionnements successifs du texte. Elle repère les oppositions les plus fortes entre les mots du texte et extrait ensuite des classes d'énoncés représentatifs. Elle a pour avantage de ne pas exiger de connaissances a priori sur le texte à analyser.

FONCTIONS

 

· ANALYSE DU VOCABULAIRE

Il s'agit de la première étape du traitement au cours de laquelle sont effectués :

- le dénombrement des mots;

- le comptage des racines du vocabulaire après réduction;

- la création des dictionnaires.

· ANALYSE STANDARD

L'analyse standard est une analyse "type" très pertinente du logiciel ALCESTE; cette analyse comporte deux classifications (double classification) afin d'éviter toute influence dûe au découpage du texte et d'assurer la stabilité.

Après avoir analysé le vocabulaire et procédé au découpage du texte, ALCESTE entre dans la phase de classification, afin de repérer les oppositions les plus fortes entre les mots et d'extraire des classes d'énoncés.

Cette analyse offre pour chacune des classes les principaux résultats suivants :

- les mots et les phrases les plus significatifs (le calcul de khi2 mesurant l'importance des liens);

- les segments répétés;

- les concordances des mots les plus caractéristiques.

· ANALYSE TRI-CROISE

Cette analyse consiste à croiser le texte avec des variables signalétiques. Il peut s'agir d'une variable "chapitre" dans le cas d'un livre ou bien d'une variable "âge", "sexe", "profession" pour une série d'interviews.

· ANALYSE DES UNITES NATURELLES

Un texte est parfois composé de différentes parties : par exemple, un livre est composé de chapitres, une revue est composée d'articles, que nous appelons des unités naturelles. Cette analyse effectue une seule classification dite "simple" sur ces unités naturelles. La stabilité est assurée par le découpage naturel du texte.

 

caracteristiques

Le logiciel ALCESTE traite tous types de textes, saisis à l'aide d'un traitement de texte, d'un scanner ou par reconnaissance vocale.

Il fonctionne sous environnements Win 95, Win 98, Win NT4, Power-Macintosh.

ALCESTE est doté d'un module de consultation permettant de visualiser et d'imprimer les résultats les plus marquants.

Son rapport simplifié synthétise l'essentiel de l'analyse et offre une excellente aide à l'interprétation.

Un module graphique d'Analyse Factorielle des Correspon-dances (A.F.C.), en 2D et 3D avec animation, permet de visualiser et d'interpréter l'essentiel des résultats.

Sa représentation graphique sous forme de secteurs renforce la compréhension des résultats statistiques.

Les concordanciers en couleur d'ALCESTE rendent encore plus agréable son utilisation.

Une gestion automatisée des dictionnaires (français, anglais, espagnol, portugais, italien) répond aux besoins de tout utilisateur de logiciel d'Analyse de Données Textuelles.

Ces dictionnaires sont fournis et restent ouverts à toute personnalisation.

· CHAMP D'APPLICATION

ALCESTE trouve ses applications en Linguistique, Analyse de Discours, Traitement d'Enquêtes, Conseils en Marketing, Publicité, Journalisme, Histoire, Sociologie, Psychologie, Droit, Médecine, Recherche Documentaire, Analyse de Presse, etc.

· EXEMPLES DE TRAITEMENTS REALISES

Enquêtes Qualitatives : Analyse d'interviews, de questions ouvertes, d'articles de magazines, de débats télévisés lors des élections présidentielles, etc.

En Socio-psychologie : Analyse de contenus d'entretiens semi-directifs, interviews, récits d'enfants, rêves, récits de cauchemars, etc.

En Sciences : Analyse de textes techniques, comptes rendus, rapports, diagnostics médicaux, pannes et messages système en informatique, etc.

En Lettres : Analyse et synthèse de livres, poésies, pièces de théâtre, textes philosophiques, etc.

Textes multilangues : Analyse de textes en français, anglais, catalan, espagnol, gascon, italien, portugais, allemand, russe, etc.

 

exemple

 

Pour mieux apprécier les possibilités du logiciel ALCESTE, nous avons choisi comme exemple l'analyse d'une enquête menée auprès d'adolescents de quartier d'habitat social toulousain.

La question était : "Quels sont vos projets d'avenir dans le domaine professionnel, familial ou autre ?"

Voici un extrait de ces interviews :

 

001 sexe masculin appartient à une association

L'année prochaine j'aimerai rentrer au lycée pour continuer mes études, faire de l'électronique; après si je réussis ces premières études je compte continuer encore deux ans dans l'informatique, être technicien supérieur.

...

008 sexe masculin appartient à une association

Dans un an, je pars de chez moi, je passe mon permis de voiture et je trouve un travail; je loue une maison et je passe une belle vie et après je me marie.

...

037 sexe masculin n'appartient pas à une association

Je veux continuer mes études jusqu'au baccalauréat et faire un boulot qui me plaît; je veux avoir une belle voiture de sport, une femme et un enfant minimum.

...

060 sexe féminin appartient à une association

Je veux toujours garder des liens avec ma famille; au niveau de mon métier, je veux faire un travail social; je veux me marier et fonder une famille et avoir une belle maison; j'espère voyager dans tout le monde.

...

 

Ainsi 61 entretiens ont été saisis. Chaque entretien est précédé d'une ligne numérotée permettant de marquer les variables signalétiques importantes en tant que repère.

Après l'analyse du corpus par ALCESTE, on obtient un ensemble de résultats dont nous exposons ci-après une synthèse des traits principaux.

Analyse du vocabulaire

 

Nombre total de mots dans le texte : 4280

Nombre de mots différents : 826

Effectif moyen d'un mot : 5

Nombre de mots d'effectif égal à 1 (hapax) : 435

Effectif maximum d'un mot : 221

 

Mot Effectif Racine Catégorie

adultes 8 adulte+ Nom

âge 5 âge+ Nom

dessin 1 dessin+ Nom

dessinatrice 1 dessin+ Nom

informaticienne 2 informat+ Nom

informatique 2 informat+ Nom

aisée 7 aisé+ Adjectif

beau 5 beau+ Adjectif

belle 6 belle+ Adjectif

belles 1 belle+ Adjectif

bons 1 bon+ Adjectif

grand 6 grand+ Adjectif

grande 4 grand+ Adjectif

grands 1 grand+ Adjectif

grosse 2 gros+ Adjectif

heureuse 2 heur+eux Adjectif

heureux 1 heur+eux Adjectif

donne 6 donn+er Verbe

donner 3 donn+er Verbe

... ... ... ...

etc

Le signe + est un indicateur de réduction; par exemple les mots "aisée", "aisés", "aisé" se réduisent à "aisé+".

Les variables de l'enquête :

Sexe : masculin ; féminin.

Appartenance à une association : oui ; non.

Croisement de variables : Sexe ; Association.

 

PROFIL DES CLASSES

 

Après avoir analysé le vocabulaire et défini la distribution des mots du texte, ALCESTE entre dans la phase de classification.

Cette phase est essentielle puisque c'est sur ces classes, caractérisées par leur vocabulaire dominant, que va s'appuyer la démarche interprétative.

Après la classification, on obtient le profil des classes (les mots les plus significatifs de chaque classe et l'indicateur khi2 mesurant le degré de significativité des mots dans la classe).

 

Profil de la classe n° 1

La classe n°1 contient 21 énoncés sur les 78 retenus dans l'analyse. 42 % des énoncés recueillis auprès des garçons et retenus dans l'analyse se retrouvent dans cette classe alors que cette dernière ne représente que 27 % des énoncés retenus. Cette différence est significative au sens du khi2 (khi2 = 5,89). On découvre que cette classe est marquée par un discours plutôt masculin. Son vocabulaire est basé sur des racines de mots : "belle", "maison", "voiture", "femme", "voyager", etc. Les mots outils principaux (pronoms, conjonctions, marqueurs d'intensité, d'espace, de temps, etc.) sont : "sans", "tout", "et", etc. Voici un extrait des énoncés significatifs de cette classe :

(Les mots en bleu sont les mots caractéristiques de la classe.)

Je veux voyager dans tout le monde, avoir plein de voitures et de femmes; je veux être riche et avoir plein de femmes.

Mes projets seraient de devenir vétérinaire, d'avoir une belle maison à la montagne et une au bord de la mer, d'avoir une femme, un enfant, une grosse voiture de sport et aussi une grosse moto.

Je voudrais être professeur de physique et pour cela il faut que je continue mes études; ensuite j'espère me marier, avoir une voiture et une maison.

Mes projets, devenir un jour professeur de français ou d'histoire géographie; me marier; etc.

PROFIL DES CLASSES

Profil de la classe n° 2

Cette deuxième classe est formée de 40 énoncés, soit 51,28 % des énoncés retenus dans l’analyse.

Voici un extrait des énoncés significatifs de la classe n° 2 :

Je pense pouvoir réaliser tout cela par rapport à mon mariage.

J'ai été à l'hôpital et là j'ai compris que les métiers dans le sanitaire c'était important, essentiel pour la société, car ils sauvent les vies et évitent les malheurs, c'est pour cela que j'ai décidé d'être infirmière.

Ce qu'il faudrait améliorer dans notre société pour que les jeunes puissent réaliser leurs projets serait de réduire le chômage, donner plus de possibilités aux jeunes dans les universités, initiation pour les réaliser, changer l'enseignement.

Car là on ne peut pas imaginer tout ce qu'on veut, mais pour cela il faut que je travaille beaucoup. Dans notre société, il faut que ça s'améliore pour que les jeunes réalisent leurs projets, il faut changer la pédagogie des professeurs.

Certains de mes projets sont réalisables maintenant : ne pas rester toute ma vie dans une cage à lapin, ne pas être un mouton qui se fasse exploiter uniquement pour les autres, être libre même si je ne gagne pas beaucoup d'argent.

Mes projets familiaux : je pense ne pas me marier mais avoir des enfants, etc.

On remarquera que le vocabulaire utilisé est plus socialisé ("jeune", "société", "métier"). La présence de verbe modaux comme "pouvoir" et "falloir", ainsi que celle de mots outils comme "beaucoup", "plus de", "aussi" est caractéristique d’une attitude plus active voire revendicative du sujet. Ce contexte est plus spécifiquement marqué par la présence féminine, si on le compare à celui des deux autres classes.

PROFIL DES CLASSES

Profil de la classe n° 3

Cette troisième et dernière classe, qui contient 17 énoncés, soit 21,79 % des énoncés retenus dans l’analyse, est, comme la première, issue d’un discours plutôt masculin, mais dont l'appartenance à une association est plus marquée :

En voici quelques extraits :

 

L'année prochaine, je voudrais bien rentrer en seconde, et puis continuer mes études, rentrer à la faculté, ou bien dans une formation plus technique; enfin le minimum c'est d'avoir mon baccalauréat, c'est mon premier projet.

Je voudrais continuer mes études, mais pas trop longtemps, je veux passer mon brevet, et ensuite voir du côté d'une formation technique, un truc de mécanicien, enfin des études pas longues.

Moi, je compte surtout avoir mon indépendance; pour ça il n'y a pas de mystère, il faut que je travaille par rapport aux études, passer mon brevet, ensuite aller jusqu'à la terminale et préparer une formation technique, je pense à l'informatique.

L'année prochaine j'aimerais rentrer au lycée pour continuer mes études, faire de l'électronique, après si je réussis ces premières études je compte continuer encore deux ans dans l'informatique, être technicien supérieur.

L'année prochaine, je compte rentrer au lycée pour préparer un bac technique, après je compte faire une formation technique, mais je ne sais pas encore vraiment ce que je veux faire, je suis assez bon dans la mécanique.

 

Le vocabulaire est ici beaucoup plus axé autour des notions d’études ("formation", "technique", "continuer", etc.) ou d’examen ("baccalauréat", "brevet", "passer", etc.). Les mots outils qui ressortent vont alors être "longtemps", "encore", "surtout", "après".

CONCORDANCIERS

 

Un concordancier regroupe l'ensemble des contextes d'utilisation d'un mot. ALCESTE permet d'obtenir des concordanciers en lignes ou en colonnes.

Voici le concordancier en lignes du verbe "pouvoir" :

 

0049 sexe féminin appartient à une association

Moi, je veux me marier et avoir des enfants; je compte me consacrer entièrement à ma famille, à mes enfants et à mon mari; je veux pouvoir l'aider dans son travail, travailler avec lui.

0079 sexe masculin n'appartient pas à une association

Ça fait dix ans que je pense continuer mes études pour pouvoir avoir une bonne place dans mon pays, un meilleur salaire. Ce projet me prendra bien dix ans car je veux faire un cycle long; il me faut du courage, de la persévérance et de l'intelligence.

0086 sexe féminin n'appartient pas à une association

Pour la famille l'idéal c'est d'avoir un mari et des enfants, après je mets de l'argent de côté pour pouvoir partir en voyage. J'ai fait un voyage dernièrement et j'aime bien; c'est pour cela que je veux voyager. Bon je veux faire des longues études dans le grand cycle, après je me marie mais je profite de la vie avant de m'attacher.

0098 sexe masculin appartient à une association

Niveau sentimental, je crois que j'ai encore le temps d'y penser, je voudrais bien fonder une famille, avoir une maison et pouvoir partir en vacances, c'est le minimum qu'on peut vouloir, après ça tourne au délire.

 

Ci-dessous le concordancier en colonnes du verbe "pouvoir" :

je veux pouvoir l'aider dans son travail

continuer mes études pour pouvoir avoir une bonne place

de l'argent de côté pour pouvoir partir en voyage.

avoir une maison et pouvoir partir en vacances,

RESULTATS GRAPHIQUES

· La représentation graphique ci-dessus de l'Analyse Factorielle des Correspondances permet de synthétiser l'ensemble des résultats obtenus, à savoir :

- Position relative des classes les unes par rapport aux autres;

- Principaux mots spécifiques;

- Position des modalités des variables signalétiques.

Les patatoïdes permettent de juger de la plus ou moins grande discrimination des vocabulaires spécifiques par rapport au plan factoriel. En effet, on observe une forte opposition entre les discours des classes 1 et 3; en revanche celui de la classe 2 reste peu marqué.

· Le diagramme en secteur ci-dessous représente les parts respectives des classes obtenues par rapport au nombre d'énoncés retenu dans l'analyse.

REFERENCES

 

AFPA, CENTRES DE RECHERCHE INSERM DE PARIS, EDF-GRETS, FRANCE TELECOM, INRA GRENOBLE, DIJON, PARIS, CORTE, CEVIPOF, CNAM PARIS, CNRS, CREDOC, CSTB, DASSAULT AVIATION, E/O CONSULT, ECOLE NORMALE SUPERIEURE, ESC NANTES, ETUDES LITTERAIRES ET LINGUISTIQUES BASQUES, FACULTE DE MEDECINE DE MARSEILLE & DE TOULOUSE, FACULTE DES SCIENCES DU SPORT DE LILLE, IAE LILLE, IEP STRASBOURG, INED, INSIGHT MARKETING, INSTITUT D'ADMINISTRATION DES ENTREPRISES, INSTITUT GEOGRAPHIE ALPINE, INSTITUT NATIONAL DE RECHERCHE SUR LES TRANSPORTS, IPST, IRED ROUEN, IUFM AIX-EN-PROVENCE, IUP LA ROCHELLE, L’OREAL, LABORATOIRE D'ETHOLOGIE DE TOURS, MEDIASCORE, OBSERVATOIRE DES ETUDIANTS, SANOFI RECHERCHE, SERVICE DE SANTE DES ARMEES, SUP DE CO, UFR STAPS TOULOUSE, UNIVERSITE CATHOLIQUE DE LOUVAIN, UNIVERSITE D'UKRAINE, UNIVERSITE DE BRUXELLES, UNIVERSITES DE CAEN, NANCY, METZ, PICARDIE, BOURGOGNE, VERSAILLES, GRENOBLE, AIX-EN-PROVENCE, UNIVERSITE DE DROIT DE BARCELONE, UNIVERSITE DE LAUSANNE, UNIVERSITE DE MONTREAL, UNIVERSITE DE ROME, UNIVERSITEs DE TOULOUSE, UNIVERSITE DU BRESIL,DU VIETNAM, UNIVERSITE PAUL VALERY DE MONTPELLIER, etc.

HISTORIQUE

IMAGE a été créée en 1986 à l'initiative d'une équipe de chercheurs statisticiens, mathématiciens appliqués et d'ingénieurs en informatique, désireux d'établir un pont entre la recherche universitaire et les entreprises.

Soutenue par l'ANVAR et partenaire du CNRS dès sa création, IMAGE se consacre depuis au développement et à l'enrichissement de méthodes d'analyse et d'aide à la décision.

De cette interaction est née une panoplie d'outils spécialisés dans le domaine de l'ingénierie textuelle, et plus particulièrement ALCESTE.

IMAGE

55, avenue Louis Bréguet; Bât 7

31400 Toulouse

Tél : 05 61 54 61 00

Fax : 05 61 80 53 03

Mail : zafar@cict.fr