22 octobre 2010

1000 chercheurs parlent d'avenir

La Fête de la Science a commencé, elle est marquée cette année par la projection sur les murs du Panthéon de 1000 portraits de chercheurs accompagnés d'une phrase sur leur vision de l'avenir (et de vidéos sur le site du CNRS). Pierre Maraval, le photographe à l'origine de ce projet, dévoile les 1000 phrases sur son site web. Voici une visualisation des mots les plus fréquents construite avec le logiciel NuageArboré sur treecloud.org, glissez la souris sur chaque mot pour voir son nombre d'occurrences :


Image SVG

Les distances entre mots calculées ci-dessus le sont d'après les cooccurrences dans des fenêtres glissantes de 10 mots. Mais ces fenêtres peuvent concerner la fin de la phrase d'un chercheur, et le début de la phrase du suivant. Pour éviter cela, il faut télécharger TreeCloud et utiliser la fonction "séparateur" afin que la distance entre mots dans l'arbre reflète le nombre de chercheurs qui les utilisent ensemble dans leur phrase. Si l'on classe chaque chercheur en "sciences exactes", "sciences de la vie" et sciences humaines" (comme dans ce fichier tableur OpenOffice), voici les nuages obtenus par TreeCloud et SplitsTree :

Le voisin du mot "recherche" dans chacun des nuages arborés (respectivement "liberté", "passion", "sauvons") me semble intéressant (même s'il n'est pas nécessairement celui qui est le plus cité conjointement avec "recherche"). Les mots des sous-arbres autour d'"avenir" d'une part et "recherche" d'autre part, me semblent intéressants pour esquisser des visions contrastées de ces domaines. On peut aller plus loin en cherchant le vocabulaire statistiquement sur-représenté dans un domaine par rapport aux deux autres. D'après les calculs de spécificité de Lexico 3, les mots (non vides) sur-représentés sont les suivants :
  • sciences exactes (total de 501 phrases) : univers, Terre, énergie, demain, futur
  • sciences de la vie (total de 379 phrases) : recherche, espoir, mieux, chercher
  • sciences humaines (total de 120 phrases) : pas, passé
A partir du prénom, j'ai également tenté de repérer les mots sur-représentés dans les phrases de 331 chercheuses par rapport à celles de 599 chercheurs. Pas de grosses différences : seuls service (systématiquement dans l'expression "au service de" chez les femmes), recherche et pour, sont sur-représentés chez les femmes alors que plus est sous-représenté par rapport aux hommes.

N'hésitez pas à commenter ces résultats, et proposer d'autres méthodes d'analyse de ce corpus !