3 décembre 2010

Classement Wikio Sciences Humaines

En ce début décembre, de nouveaux classements thématiques de blogs fleurissent sur Wikio. Claire, qui travaille dans leur département marketing, m'a proposé de diffuser celui des blogs en les sciences humaines. Alors ça y est, les informaticiens ont encore frappé, et leurs évaluations à la sauce bibliométrique touchent désormais la blogosphère française de la recherche en SHS ? Allez, pour se faire pardonner, on va organiser à Montpellier en juillet 2011 en satellite de TALN, un colloque (Doctorants, Informatique et Sciences Humaines) où les doctorants en informatique se mettront au service des doctorants en sciences humaines qui leur soumettront des problématiques traitables par l'outil informatique (plus de nouvelles bientôt sur ce blog et sur les canaux habituels de diffusion...).


Sans plus attendre, voilà ce Top 20 :
1Scriptopolis
2Baptiste Coulmont
3Ecrans de veille en éducation
4Évaluation de la recherche en SHS
5Mapping Expert
6Socio-informatique et argumentation
7Les émotions au Moyen Âge
8AGORA / sciences sociales
9Mexique ancien
10Je véronise...
11Mame & fils
12Archéologie poitevine
13Les découvertes archéologiques
14Le blog archeomellois
15DemoSocio
16Femmes au travail
17Paris Design Lab - ENSCI Les Ateliers
18Making Science Public*
19Bafouillages
20Amades

Classement réalisé par Wikio

Comme tout classement, ce qui importe est ce qu'on en fait ! Alors évidemment, le jour où l'ANR commencera à l'utiliser pour attribuer ses financements on pourra se faire du souci. Je le vois plutôt comme une façon de mettre en avant une communauté de blogueurs, et faire découvrir quelques carnets de notes virtuels qui méritent le détour (il est possible de consulter la suite du classement sur Wikio), de manière plus pertinente que la F-list et ses déclinaisons thématiques par exemple. On pourra s'étonner de l'absence de certains grands blogs français de SHS, ils sont peut-être à chercher du côté de la section Sciences de l'information. Si vous repérez d'autres grands absents, vérifiez si Wikio les connaît, signalez-les si non, et citez-les dans vos blogs si oui !

Une autre remarque : dans ce Top 20, on trouve pas moins de 8 carnets de recherche hébergés chez Hypotheses.org. Cela souligne un beau succès de cette plateforme, et je souhaite à Plume! la même réussite avec la plateforme-réseau de blogs de vulgarisation scientifique qu'ils viennent de lancer ("scientifique" inclut bien évidemment les sciences humaines !).

Et comme je n'aime pas faire uniquement du relai d'informations, j'en profite pour diffuser un autre classement polémique, fait maison : celui des villes universitaires françaises, en fonction des demandes de mutation des professeurs d'université et maîtres de conférences. Eh oui, les mathématiciens, dans leur grande bonté, ont dédié une Machine Ouverte aux Universitaires qui Veulent Echanger, qui mentionne les souhaits de mutation. On récupère tout dans un fichier tableur OpenOffice, on fait la différence pour chaque ville des demandes d'arrivée moins les demandes de départ, et on obtient, tada, un Top 15 des villes attractives pour les enseignants-chercheurs :

Pour dissuader ceux qui seraient tentés de l'utiliser de manière sérieuse, je précise que MOUVE propose aussi d'indiquer des régions souhaitées, que je n'ai pas prises en compte ici (pour une raison autre que vouloir faire figurer en tête la ville où j'ai obtenu mon doctorat : ceux qui indiquent vouloir déménager en "région parisienne" sont-ils vraiment prêts à prendre un poste indifféremment au centre de Paris, ou dans les diverses banlieues ?), et que je n'ai même pas pris le temps de refaire l'expérience sur des données à jour (celles-ci datent de mai 2010).

22 octobre 2010

1000 chercheurs parlent d'avenir

La Fête de la Science a commencé, elle est marquée cette année par la projection sur les murs du Panthéon de 1000 portraits de chercheurs accompagnés d'une phrase sur leur vision de l'avenir (et de vidéos sur le site du CNRS). Pierre Maraval, le photographe à l'origine de ce projet, dévoile les 1000 phrases sur son site web. Voici une visualisation des mots les plus fréquents construite avec le logiciel NuageArboré sur treecloud.org, glissez la souris sur chaque mot pour voir son nombre d'occurrences :


Image SVG

Les distances entre mots calculées ci-dessus le sont d'après les cooccurrences dans des fenêtres glissantes de 10 mots. Mais ces fenêtres peuvent concerner la fin de la phrase d'un chercheur, et le début de la phrase du suivant. Pour éviter cela, il faut télécharger TreeCloud et utiliser la fonction "séparateur" afin que la distance entre mots dans l'arbre reflète le nombre de chercheurs qui les utilisent ensemble dans leur phrase. Si l'on classe chaque chercheur en "sciences exactes", "sciences de la vie" et sciences humaines" (comme dans ce fichier tableur OpenOffice), voici les nuages obtenus par TreeCloud et SplitsTree :

Le voisin du mot "recherche" dans chacun des nuages arborés (respectivement "liberté", "passion", "sauvons") me semble intéressant (même s'il n'est pas nécessairement celui qui est le plus cité conjointement avec "recherche"). Les mots des sous-arbres autour d'"avenir" d'une part et "recherche" d'autre part, me semblent intéressants pour esquisser des visions contrastées de ces domaines. On peut aller plus loin en cherchant le vocabulaire statistiquement sur-représenté dans un domaine par rapport aux deux autres. D'après les calculs de spécificité de Lexico 3, les mots (non vides) sur-représentés sont les suivants :
  • sciences exactes (total de 501 phrases) : univers, Terre, énergie, demain, futur
  • sciences de la vie (total de 379 phrases) : recherche, espoir, mieux, chercher
  • sciences humaines (total de 120 phrases) : pas, passé
A partir du prénom, j'ai également tenté de repérer les mots sur-représentés dans les phrases de 331 chercheuses par rapport à celles de 599 chercheurs. Pas de grosses différences : seuls service (systématiquement dans l'expression "au service de" chez les femmes), recherche et pour, sont sur-représentés chez les femmes alors que plus est sous-représenté par rapport aux hommes.

N'hésitez pas à commenter ces résultats, et proposer d'autres méthodes d'analyse de ce corpus !

14 septembre 2010

Mathématiques des papillotes (2/2) Carambars

La question du nombre de blagues Carambar était restée sans réponse à la fin de l'épisode 1 de mon étude du nombre de citations de papillotes. El Jj s'y est collé sur son blog Choux romanesco, vache qui rit et intégrales curvilignes. De mon côté j'ai également fini de recueillir les blagues (séquences reconstituées ci-contre) de 3 paquets de Carambar qui traînaient depuis un an (j'en suis visiblement moins friand que des papillotes...), qui me permettent d'apporter quelques nouvelles précisions sur les obstacles à l'application de la "méthodologie-papillotes" à l'estimation du nombre de blagues Carambars, et de proposer des méthodes alternatives. J'avais évoqué ces deux problèmes, et El Jj mentionne également dans son billet, en les négligeant toutefois pour le calcul :
  • certaines blagues sont plus longues que d'autres
  • certaines blagues sont présentes avec des doublons, c'est-à-dire qu'elles apparaissent à plusieurs endroits dans la "chaîne de blagues" (entourées de blagues voisines différentes)
A cause de ces deux phénomènes, toutes les blagues ne sont pas équiprobables. Une remarque sur les données permet de se débarrasser du second problème : en regardant attentivement les emballages, on se rend compte que le recto coïncide toujours avec le verso. Je m'explique : si l'on tombe deux fois sur la même blague au recto, le verso, visible par transparence, est toujours calé au même niveau vertical... sauf quand la blague apparaît en doublon (avec un voisinage différent) ! Ainsi, si l'on trouve une blague en double avec un calage vertical différent pour les motifs au verso, on peut les considérer comme des blagues différentes lors du calcul. Ces doublons sont indiqués par les cadres de couleur dans le scan des séquences de blagues.

Quant aux autres méthodes d'estimation de tailles d'une population (de blagues), je les dois à Cécile qui m'a indiqué celle de la capture-recapture, aussi appelée mark-recapture en anglais (comme quoi une mi-temps d'Uruguay-Allemagne peut aussi être scientifiquement enrichissante). Elle est basée sur l'indice de Lincoln-Petersen, le second l'ayant utilisée en 1894 sur des poissons, et le premier en 1930 sur des oiseaux. Elle consiste à capturer M animaux, à les marquer puis à les relâcher. S'il y a un total de N animaux dans le périmètre choisi, et que chaque animal a la même probabilité d'être capturé, on a une probabilité de M/N de recapturer un animal marqué. Ainsi, si l'on effectue une seconde capture de n animaux, on s'attend à en obtenir nM/N marqués. En appelant m le nombre d'animaux marqués effectivement recapturés, on s'attend donc à avoir m=nM/N, et donc on estime le nombre total d'animaux à nM/m (indice de Lincoln-Petersen).

Appliquons la méthode sur les blagues Carambar, en prenant par exemple M=10. Mangez assez de Carambar pour trouver 10 blagues différentes. Mangez alors n Carambars et comptez ceux dont la blague associée faisait partie des 10 choisies au départ. Vous vous attendez à obtenir m=nx10/N, et donc le nombre estimé de blagues différentes est 10n/m.

Ce cours sur la biodiversité évoque également, page 6, une estimation du nombre d'espèces par une détermination graphique de l'asymptote de la courbe qui indique le nombre total d'espèces observées en fonction du temps d'observation. L'avantage est que pour cette méthode il n'y a pas besoin de faire d'hypothèse sur l'équiprobabilité d'observer chaque espèce, contrairement à celles présentées précédemment. Toutefois elle semble peu précise, et très dépendante du modèle de régression choisi. Quant à l'application aux Carambars, il suffit de l'utiliser sur la courbe du nombre total de blagues trouvées en fonction du nombre de Carambars mangés (en rouge sur la diapo 17 ici).

Vous voilà prêts à faire vos estimations avec ces méthodes, en évaluer la fiabilité (m'indiquer de la littérature sur le sujet ?), ou en proposer d'autres... A vous de jouer !


Le billet d'El Jj : ¡ Ay, Carambar !
Le premier billet de la série : Mathématiques des papillotes (1/2)
Un article du Monde suite à la blague du retrait des blagues Carambar : Nos petites madeleines

31 août 2010

Nuages arborés en ligne

Vous avez vu le concept apparaître sur le blog de Jean, et quelques exemples sur ce blog, mais ça fait quelque temps que je n'en ai pas parlé ici, des nuages arborés de mots. Après quelques semaines de test d'une interface web de construction de ces outils de visualisation, il est temps de dévoiler le nouveau site web de TreeCloud : treecloud.org !


Grâce à Jean-Charles, étudiant en licence d'informatique à la Faculté des Sciences de l'Université de Montpellier 2, qui a programmé tout ça sur son temps libre, cette méthode de visualisation qui n'était alors disponible que sous forme d'un logiciel libre un peu contraignant à installer (il y a encore des problèmes sous Mac pour cette version en développement référencée par le Projet Plume), est maintenant offerte sous forme d'une interface web que vous pouvez installer sur votre site web, sous le nom NuageArboré. Ce que j'ai fait pour treecloud.org, après des petites modifications pour adapter les paramètres par défaut, et voilà le tout prêt à utiliser en un clic !

Alors quelle utilité pour ces nuages de mots grimpés aux arbres ? Simple aperçus esthétiques du contenu d'un texte ? Eh bien pas seulement, comme nous l'avons montré avec Delphine, ma co-autrice dans notre article présenté en juin aux JADT 2010 à Rome. C'est maintenant dans la foire aux questions de TreeCloud, ces visualisations peuvent également servir à analyser des textes dans le cadre d'une démarche assistée par ordinateur :
  • en suscitant, en formalisant et en étayant des hypothèses de travail,
  • en comparant des textes selon leur représentation arborée,
  • en hiérarchisant l'utilisation d'autres outils textométriques,
  • en représentant les résultats de l'analyse.
Je vous laisse lire notre article ou découvrir notre présentation aux JADT pour en savoir plus.


Et maintenant, à vous de jouer, pour trouver d'autres usages ! Contactez-moi si ça vous donne des idées, ou suscite des questions. En tout cas ces nouvelles visualisations sous forme de nuages de mots sont à la mode, et des chercheurs d'IBM et de Microsoft qui ont évoqué les nuages arborés dans des articles à InfoVis l'an dernier et cette année planchent sur de nouvelles améliorations et de nouveaux usages des nuages de mots.

Je terminerai en remerciant le projet ANR PhylAriane qui a financé la présentation des travaux sur les nuages arborés à IFCS l'an dernier et aux JADT cette année. En effet, cet outil de visualisation construit grâce à des méthodes issues de la bioinformatique, conçu pour des problématiques de sciences humaines, va bientôt trouver des applications en bioinformatique. Plus de détails à venir, dans un certain Chapitre 4...

30 juin 2010

Densité des idées

La rencontre de doctorants Osidmesh (évoquée précédemment sur ce blog) a débouché sur un joli projet qui a déjà donné ses premiers résultats, que mes coautrices vont présenter cette semaine et le mois prochain. Petit coup de projecteur, donc, sur ces travaux liés à la thèse d'Hyeran sur le langage des malades d'Alzheimer.

En octobre dernier, elle m'avait parlé du logiciel CPIDR qui permet d'estimer, pour un texte en anglais, sa "densité des idées". Le concept de ce score linguistique, qui correspond au nombre d'idées exprimées en 10 mots, nous vient de la psycholinguistique. La densité des idées représente une certaine qualité informative des phrases d'un texte, et les psycholinguistes soupçonnent que sa dégradation est liée à un déclin de l'activité cognitive. Ainsi, Hyeran cherchait à vérifier que les malades d'Alzheimer avaient généralement une densité des idées inférieure aux personnes non atteintes, première étape avant d'utiliser ce critère pour des applications plus poussées comme le diagnostic de la maladie, ou l'analyse précise des dégradations de la capacité langagière en vue de proposer des exercices de rééducation adaptés.

Nous avons donc réutilisé la méthode du logiciel CPIDR pour le calcul de la densité des idées d'un texte : on détermine la nature grammaticale de tous les mots (par exemple de façon automatique avec TreeTagger), et on utilise cette information comme base pour déterminer si le mot peut être considéré comme représentant une idée ou non. En fait, les mots comptant pour une idée sont principalement les verbes, les adverbes et adjectifs, ainsi que les prépositions et conjonctions. Des règles linguistiques permettent d'ajuster ce principe de base et de traiter certains cas particuliers, éventuellement spécifiques au discours oral.

Nous avons donc codé dans un logiciel libre en Python, Densidées, ce principe de base et quelques premières règles grammaticales, qui nous ont permis d'obtenir assez rapidement une approximation intéressante des valeurs de densité des idées trouvées manuellement. Et par un prompt renfort de deux étudiantes lyonnaises en orthophonie, Constance et Elsa, un joli corpus étiqueté manuellement (le rêve de tout TALeux !) a été constitué, permettant d'améliorer le logiciel en comparant les résultats de l'analyse automatique et manuelle, pour trouver les nouvelles règles à ajouter pour réduire le taux d'erreur. Nous arrivons finalement à de très bons résultats, comme détaillé dans cet article à RECITAL 2010 et montré dans le graphique de corrélation entre analyse manuelle et automatique ci-contre.

Deuxième étape, vérifier que la densité des idées, en particulier celle calculée par Densidées, est effectivement plus faible chez les malades d'Alzheimer. Les résultats du mémoire d'Elsa et Constance pour un groupe de 22 personnes (dont 11 malades), sont confirmés dans notre poster à CEDIL 2010 pour un groupe de 40 personnes.

Hyeran va poursuivre la constitution de son corpus, et elle a d'autres pistes de critères linguistiques pouvant jouer le rôle d'indices de la maladie d'Alzheimer, mais la partie de son travail à laquelle j'ai eu la chance de participer a précisé de manière très concrète l'image que j'esquissais dans le billet précédent de recherches en sciences humaines d'une grande qualité malgré la faiblesse, ou l'absence, des financements. La motivation et le travail d'une doctorante, en lien avec une équipe d'étudiantes énergiques et passionnées, et un bon encadrement de thèse, sont visiblement des clés pour compenser la faiblesse des moyens pour la recherche en sciences humaines. Mais jusqu'à quand si les financements n'arrivent pas à la suite des bons résultats obtenus ? Le minimum vital est de pouvoir les présenter, afin de recueillir l'avis et les suggestions de la communauté scientifique. Pour l'article de RECITAL (à Montréal cette année avec TALN), nous remercions le laboratoire Praxiling et l'école doctorale 58, ainsi que l'ATALA et l'école doctorale I2S pour leur soutien financier.

A très vite pour évoquer un autre logiciel libre et une autre collaboration à l'interface avec les sciences humaines...

31 mai 2010

Graphe orienté et politique : le cercle vertueux

Les graphes apparaissent rarement sur ce blog, alors qu'ils constituent l'une de mes thématiques de recherche. Une utilisation dans le cadre du débat politique me donne l'occasion d'en parler aujourd'hui.


Combats de chiffres parfois, d'égos souvent, de mots toujours, les débats politiques s'enlisent bien souvent sans faire apparaître clairement le fond du problème, sorte de plus petit commun désaccord. Des outils informatiques de brainstorming et de web-débat commencent à voir le jour pour structurer les discussions et les confrontations. Mais ceux que je connaissais ne me satisfaisaient pas au moment où nous avons commencé avec d'autres doctorants des universités montpelliéraines à débattre sur la future charte des thèses.

Un peu d'éléments de contexte avant d'aborder l'outil proposé. La charte des thèses existe dans les établissements d'enseignement supérieur pour donner un cadre à la préparation du doctorat. Ces chartes détaillent de façon plus ou moins poussée les droits et devoir des doctorants, de leurs encadrants, et des structures liées au doctorat. Selon les universités et les domaines de recherche, elles assurent aux doctorants un statut clair de professionnel de la recherche recruté sur un projet précis (en affirmant par exemple que tout doctorant doit être rémunéré) ou bien restent plus vagues, pour diverses raisons. Raisons historiques, contextuelles, et scientifiques se mélangent bien souvent dans les explications, il est difficile de faire le tri. Face à cette confusion, la Confédération des Jeunes Chercheurs tient un discours clair, argumenté et documenté sur le sujet.

J'ai donc essayé de regrouper l'ensemble de ces arguments dans une synthèse qui ferait apparaître la cohérence d'ensemble de ce discours, et permettrait rapidement de mettre le doigt sur les points de désaccord. Les arguments étant souvent liés les uns les autres, il semblait apparaître une sorte de cercle vertueux, et c'est cet aspect que j'ai essayé de mettre en valeur dans un graphe orienté (un ensemble de points reliés par des flèches), à l'occasion d'une pause MacDo par un sombre dimanche d'hiver. Les flèches s'interprètent comme des implications logiques, mais comme tout modèle mathématique, il s'agit d'une simplification de la réalité, où les flèches doivent plutôt être interprétées comme "conduisent à" ou "favorisent".

Il fallait ensuite passer de l'ébauche sur carnet Moleskine au document clair et utilisable, ça a été fait grâce à l'outil de dessin de Google Docs (afin de laisser la possibilité à d'autres participants de notre groupe de réflexion de modifier la figure), et aux conseils esthétiques de Paola et Alban pour mieux faire ressortir le cercle vertueux, et faire apparaître la charte des thèses, et ses effets sur le cercle, en position centrale :


Etape suivante, rendre la figure entièrement cliquable pour expliquer les flèches et les cases dans une interface très navigable. L'outil de création de maps HTML d'OpenOffice a permis de faire ça très rapidement, le résultat se trouve ici.

Résultat sur les discussions et le débat ? On y gagne une vision d'ensemble assez claire : ce cercle fonctionne bien actuellement pour les doctorants en sciences exactes, en revanche c'est moins le cas pour les doctorants en sciences humaines. La clé du débat est alors de savoir comment l'amorcer : en imposant de nouvelles contraintes sur les doctorants (obligation de financement pour s'inscrire en thèse, durée limitée de façon stricte à 3 ans), ou bien en améliorant les conditions d'encadrement et de travail en équipe ? La réponse est vite trouvée, et correspond à l'évolution en cours dans les écoles doctorales montpelliéraines en sciences humaines : EDEG, 58 et 60. Pour Droit et sciences sociales, le chemin à parcourir semble plus important...

C'est justement dans cette école doctorale qu'on nous dit que le "cercle vertueux" est inadapté, en ciblant les cases et les flèches qui ne sont pas correctes. L'insertion professionnelle dans le privé aurait peu de lien avec le bon déroulement de la thèse, en droit, et serait même à l'origine d'un grand nombre d'abandons de thèse. De plus, le rapport personnel et subjectif du doctorant à son sujet de thèse et aux textes de sa bibliographie, ainsi que la maturation de la réflexion nécessaire à produire un résultat de recherche intéressant, seraient à l'origine d'une impossibilité de borner une thèse à une durée maximale de trois ans. Là, toute la question est de savoir s'il s'agit d'un principe qui fait consensus en droit voire dans d'autres domaines scientifiques (philosophie ? littérature ?), ou si elle concerne seulement certains sujets de thèse exceptionnels qui demandent des durées adaptées en conséquence... auquel cas une simple exception à la règle, bien encadrée dans la charte des thèses, suffirait.

Verdict attendu suite aux discussions dans les écoles doctorales et les conseils scientifiques... En tout cas la phase de réflexion des doctorants est en train d'aboutir, grâce à une consultation de l'ensemble des doctorants montpelliérains, et ce graphe orienté aura contribué à faciliter le débat et sa synthèse.

20 avril 2010

Sous-titrage xkcd : 100% !

J'ai eu le plaisir de valider ce matin la 729ème traduction en français d'une vignette xkcd, qui a permis d'atteindre les 100% dans la petite barre de progression d'xkcd.free.fr !

En à peine moins de 500 jours, avec un total de 100 participants (dont les 20 plus actifs ont réalisé 90% des traductions), toutes les vignettes de xkcd ont été sous-titrées en français. Merci donc à useless, Djool, Antoine, justt, Manutaust, I5, pascal, Zuiter, Kith, Yun-Kang, PH TRIVIER, Jmfork, Mutte, Lolouf, François, Quark, Arnaud R, Eniotna, Anouck, Anonyme, Di@bl@l, Nicomm, Tejgad, Malta, relaurelius, Nitrec, LS, cwoodin, Romain, Lagierl, anonyme, Iain, Pierre Ligot, brazzmonkey, Jules.LT, Xavier, Phersv, Kasui, Oaz, iuchiban, GG, neurone, Christophe, Alice, Carrot, Le pti yo, Fanch, crox, Romu, Takhiarel, Sioc, CaptainDangeax, egogramme, azerwhite, ianux, Thieums, Yves, Alexis, P., Nightgeek, DVLish, DenisQC, Bab, Niaatan, J. Ruaud, irqy, Cynoid, Baudelaire, Bernard Tribot, PL, wed, cerca, Wen, Philippe MacKay, Yves Roumazeilles, Arnaud, Johngeek, medard, AmideLanval, Delphine, Padreik, RJL, Egogramme, Guilac, seb, Ozh, oDn, Aelfgar, Nic, Em, Christophe Thill, Fractal, raph, dgryski, Ha3, Christophe S., mrlargo, Krom et kercoz.


Le graphique ci-dessous montre l'évolution de la traduction. J'ai indiqué pour les 14 plus gros contributeurs le moment où ils avaient particulièrement participé :

Je précise tout de même que ce graphique n'indique pas la difficulté de la contribution. En participant dès le début, j'ai pu traiter les plus simples et donc participer sur une grosse quantité. Au contraire, ceux arrivés plus récemment ont eu le courage de s'attaquer à quelques gros morceaux (je pense par exemple à Nicomm pour le 24, Manutaust pour la Blogofractale, ou encore brazzmonkey pour le 472).

Merci également à ceux qui ont fait connaître ce projet, en particulier Astrid Girardeau dont l'article dans Libération/Ecrans a bien augmenté le nombre de visiteurs, ou encore MacGeneration et CommentCaMarche.

Le projet peut maintenant passer dans une autre phase. Outre bien sûr la traduction au jour le jour, il faut désormais améliorer les traductions existantes (j'ai un gros mois de retard sur la modération de ces améliorations), et passer de cette version sous-titrée à une version "en VF", traduite directement sur l'image. Heureusement, Phiip a commencé ce travail sur xkcd.lapin.org de façon indépendante il y a quelques semaines, il avance vite et bien, et pourra utiliser ou améliorer les traductions d'xkcd.free.fr.

Deux flux RSS à ajouter donc : celui d'xkcd.free.fr pour continuer à recevoir les textes des traductions le jour de leur sortie, et celui d'xkcd.lapin.org pour recevoir les images au fur et à mesure de leur traduction !

Encore une fois bravo et merci à tous, l'aboutissement (relatif) de ce projet d'équipe constitue une excellente motivation pour en terminer un autre, qui m'occupe depuis près de 3 ans... Et bon courage pour les traducteurs allemands (145/729), espagnols (204/729) et russes (422/729) !

Episodes précédents : traduction d'xkcd et loi de Pareto (31 mars 2009), xkcd en français (13 décembre 2008)

31 mars 2010

Comment translater les titres de films (2)

J'avais proposé dans un billet précédent une petite typologie de la traduction des titres de films, et je vois ressortir ce sujet un peu partout, en particulier au début du mois dans un article de Julien Jouanneau pour Le Post. Il y notait en particulier une utilisation assez importante du mot "enfer" dans les traductions de titres anglais et américains.

Dès 2007, je m'étais lancé dans la récupération d'un corpus de titres et leur étiquetage selon cette typologie. Il est temps de mettre à disposition mes données et mes premiers résultats, même si leur quantité et leur qualité est améliorable, je pense qu'il y a des choses intéressantes à en tirer.

Quelques infos sur ces données pour commencer (n'hésitez pas à me demander le droit d'édition du fichier en commentaires si vous voulez participer à l'étiquetage !). Elles ont été récupérées automatiquement sur le site Allociné, ce qui est à l'origine de quelques erreurs sur la date de sortie : celle mentionnée est la date de dernière sortie cinéma en France, ce qui peut être une date de reprise. J'ai donc le projet de corriger cela un de ces jours...

Les films ont alors été étiquetés de la manière suivante :
- F pour un titre français,
- O pour un titre anglais gardé en français,
- D pour une traduction littérale de l'anglais,
- T pour une traduction un peu plus subtile voire complètement différente,
- A pour une traduction "fashion", de l'anglais vers autre chose en anglais,
- N pour une traduction "note du traducteur", où le titre anglais est gardé mais complété par des mots en français,
- C pour une traduction "censure", où le titre anglais est tronqué,
- S pour une traduction "sans the", où le titre anglais est gardé mais en enlevant le premier "the" (Da Vinci Code, Last Kiss, etc.).
- la lettre ci-dessus doublée quand il s'agit du même phénomène avec une autre langue que l'anglais.

Bref, j'arrive à une base étiquetée de plus de 1600 titres traduits de films dont la dernière sortie a eu lieu dans les années 1967-1974, 1982-1984, 1994, ou 2002-2006 : vous devinez que j'ai recherché des évolutions dans les habitudes de traduction... Et effectivement il semble avoir des variations, avec de plus en plus de titres gardés sous leur forme originale et de moins en moins de traductions littérales, et peut-être également un engouement ces dernières années pour les traductions "fashion" et "sans the". A confirmer quand la qualité et la quantité des données sera améliorée bien sûr.

Pour voir si d'autres mots comme "enfer" étaient particulièrement choisis dans les traductions subtiles, on peut extraire toutes les traductions subtiles d'une part (549 dans la colonne F), toutes les traductions littérales d'autre part (283 dans la colonne G), et comparer le vocabulaire qu'elles utilisent.

J'extrais donc la liste des mots les plus fréquents dans chacune de ces deux catégories avec Dico, puis je les compare en les explorant avec un multinuage de mots (les tailles des mots en bleu reflètent le nombre d'occurrences dans le corpus des traductions littérales, en rouge dans celui des traductions subtiles) :
Attention toutefois un corpus a une taille deux fois plus importante que l'autre, il faut donc visualiser les fréquences, avec Lexico3 par exemple, voici les mots du nuage avec les différences de fréquences les plus significatives :


Le mot "roi" est donc moins utilisé dans les traductions subtiles, alors que "mort", "enfer", "affaire" et "secret" y sont plus souvent employés. Attention toutefois : si l'on calcule les spécificités avec Lexico3, aucun de ces mots n'apparaît comme statistiquement sur-représenté dans un des deux corpus. Le fait qu'"enfer" ne soit pas présent dans les traductions littérales et 6 fois dans les traductions subtiles peut donc être dû au hasard. Plus de données permettra peut-être de conclure... avis aux amateurs qui voudraient participer à l'étiquetage du reste de la base !

En tout cas voilà les titres à traduction subtile contenant le mot "mort" : Side Street (La rue de la mort), I'll Sleep When I'm Dead (Seule la mort peut m'arrêter), The Bourne Supremacy (La mort dans la peau), Touching the Void (La mort suspendue), Kiss of Death (Le carrefour de la mort), Double Indemnity (Assurance sur la mort), Stepping Razor - Red X (La vie et la mort de Peter Tosh), Battletruck (Le camion de la mort), Still of the Night (La mort aux enchères).

D'ailleurs, le mot avait bien été gardé pour la traduction officielle du titre du film Deathproof de Tarantino. A sa sortie, TFM Distribution avait lancé un concours de traduction, je ne sais pas quel titre avait finalement gagné, mais le titre officiel "Boulevard de la mort" fait bien apparaître ce fameux mot-clé, et a apparemment conquis Tarantino, même s'il a fait causer des dizaines de cinéphiles.

24 février 2010

Miss Google 2010

Avez-vous déjà invité une brésilienne à votre soirée d'anniversaire ? Paola me raconte que ça suffit à obséder certains jeunes hommes que j'imagine charmés par les sonorités de l'accent brésilien ou de la langue portugaise. A moins que la brésilienne ait un statut particulier dans l'imaginaire collectif français...

C'est l'hypothèse que j'ai testée en allant récupérer le nombre de réponses Google de "belle brésilienne", "jolie brésilienne", et en faisant de même pour un total de 152 nationalités. Je suis fan de ce genre de tests, tout comme xkcd. Et mon petit FuryPopularity fonctionne toujours aussi bien pour effectuer des requêtes Google en masse (contrairement aux requêtes Yahoo, qui a encore changé d'apparence récemment)... en imposant un délai d'une vingtaine de secondes entre deux requêtes, pour éviter d'être détecté comme robot (il y a quelques mois 8 secondes suffisaient, argh).

Les résultats sont dans ce document tableur partagé.

Top 10 des belles : françaises, japonaises, marocaines, brésiliennes, chinoises, roumaines, mexicaines, allemandes, italiennes, américaines.
Top 10 des jolies : françaises, thaïlandaises, russes, indiennes, anglaises, italiennes, américaines, brésiliennes, espagnoles, allemandes.

Première remarque en se penchant un peu plus sur les résultats chiffrés : en les passant au logarithme on obtient une droite, excepté une irrégularité pour les nombres de résultats compris entre 10 et 40. Je ne serais pas étonné que ce soit le palier au delà duquel Google ne fournit pas les nombres exacts de résultats, mais seulement des approximations. En revanche je suis un peu étonné de ne pas tomber sur une loi de puissance comme ça a si souvent été le cas sur ce blog.

Deuxième remarque, il y a une forte corrélation entre les résultats pour "belle" et ceux pour "jolie" (coefficient de corrélation 0.88), qui tendrait à indiquer qu'effectivement ces résultats correspondent à une tendance commune, et qu'on pourrait donc les interpréter comme un inconscient collectif (ou médiatique ?) d'association de la beauté féminine avec certaines nationalités.

Mais j'entends déjà poindre les premières critiques : belles françaises, italiennes, allemandes et américaines... Google Images nous confirme qu'on ne parle pas là que des habitantes de ces pays, mais aussi de leurs voitures. Les allemands ont semble-t-il un peu moins tendance à personnifier leurs voitures (encore que, les motos peut-être un peu), j'ai donc également lancé l'expérience également avec "schöne" et "hübsche", avec les gentilés allemands trouvés ici.

Les résultats sont différents, mais tout de même un peu corrélés aux français (0.72 et 0.75). Voilà le top 10 pour "schön" : sud-africaines, russes, allemandes, italiennes, suédoises, danoises, françaises, indiennes, polonaises, autrichiennes ; et pour "hübsch" : japonaises, brésiliennes, allemandes, polonaises, françaises, chinoises, suédoises, italiennes, américaines, norvégiennes. Avec toujours une bonne corrélation entre les deux listes de résultats (0.86).

Vous remarquez le point à droite, très "schön" mais moyennement "hübsch" ? Il s'agit de l'Afrique du Sud, représentée, pour les allemands, par Charlize Théron qui truste les résultats de la requête. Elle me permet de remarquer une fois de plus combien les nombres de résultats Google sont variables du jour au lendemain, car il y a aujourd'hui beaucoup moins de résultats qu'hier soir quand j'ai récupéré les données.

N'hésitez pas à réutiliser le protocole pour obtenir des résultats plus solides (en réitérant les requêtes sur plusieurs jours pour éviter les résultats fantaisistes parfois fournis par Google), ou bien dans d'autres langues, ou sur les hommes plutôt que les femmes. Et peut-être, en testant assez de langues, pourrez-vous trouver le pays où français et française sont les mieux cotés ! Ou bien tout cela vous donnera envie de voyager un peu dans les pays du milieu et du bas du classement pour constater l'absurdité de ces stéréotypes.

31 janvier 2010

Prénom et profession

Ca fait un certain temps que traînent sur mon ordinateur les données des prénoms et professions de plus de 100 000 signataires d'une pétition que j'évoquais dans des billets précédents. Alors que je me suis récemment plongé dans la passionnante Initiation aux méthodes de la statistique linguistique de Charles Muller (sur un conseil avisé) pour un autre projet dont je parlerai bientôt ici, j'en profite pour appliquer ce que je viens d'y apprendre sur les écarts réduits. Les commentaires de vrais statisticiens sont les bienvenus...


J'ai donc à disposition un tableau de 294 prénoms qui apparaissent plus de 40 fois chacun parmi les signataires, et pour chacun la répartition en 15 professions (étudiant, informaticien, ingénieur, employé, chercheur, auteur, cadre, enseignant, lycéen, retraité, profession, libérale, chômeur, fonctionnaire, bibliothécaire, journaliste). J'aimerais alors pour chaque profession savoir quels prénoms sont sous-représentés et sur-représentés. Une première approche consisterait à calculer simplement le pourcentage de représentation de chaque prénom. Par exemple, sur 1304 Philippe, il y a 33 étudiants (soit 2,5%), alors que sur 103312 signataires, il y a 14881 étudiants (soit 14,4%). Ainsi, parmi les Philippe, les étudiants seraient sous-représentés ?

Malheureusement, ce raisonnement ne conduit qu'à une intuition et n'est pas encore confirmé statistiquement. Pour évaluer si cette sous-représentation est statistiquement significative, il faut calculer les écarts réduits, et pour cela abandonner les pourcentages pour revenir aux valeurs théoriques et valeurs observées. Comme il y a 14881 étudiants, 1304 Philippe et un total de 103312 personnes, le nombre théorique d'étudiants qui s'appellent Philippe est 14881/103312*1304 = 188 (environ). Le critère pour évaluer si cet écart absolu de -155 (=33-188) est bien significatif s'appelle l'écart réduit, il consiste à diviser l'écart absolu par l'écart-type.

Là, j'ai cru comprendre qu'on prend l'hypothèse d'une loi normale pour calculer l'écart-type théorique comme la racine du nombre d'individus considérés (de Philippe, soit 1304) multiplié par la probabilité qu'ils soient étudiants (soit p=14881/103312=0,144) multiplié par la probabilité qu'ils ne le soient pas (1-0,144=0,856). Pour l'instant tout ça m'a l'air un peu magique, mais ça semble avoir un rapport avec le théorème de Moivre-Laplace (qui demande que n soit suffisamment grand, d'où ma restriction initiale à des prénoms représentés plus de 40 fois, j'espère que c'est suffisant).

Enfin bref, on trouve donc un écart réduit de -12,21 ce qui est statistiquement significatif, car la probabilité qu'un tirage au hasard (d'étudiants tirés à probabilité 0,144 avec 1304 tirages) conduise à un tel écart type est tellement faible qu'elle n'est même pas dans la table de référence des écarts réduits du bouquin de Muller page 175 (qui s'arrête à un écart réduit de 4,5 qui est atteint ou dépassé avec proba 0,000006. Cette opération peut être répétée pour tous les prénoms et conduit à ce fichier tableur OpenOffice (les écarts réduits sont sur la feuille 2, si vous avez la chance de trouver votre prénom parmi les 294 sélectionnés...), et en particulier cet histogramme des écarts réduits pour Philippe (on considère que les écarts réduits sont significatifs en dessous de -2 et au-dessus de 2) :
On peut aussi faire un Top 10 des prénoms significativement sur-représentés dans diverses professions, en appliquant des calculs similaires (en feuille 3 du document tableur). Je les dispose ci-dessous sous forme de nuages construits avec TagCloudBuilder (il y a visiblement encore des progrès à faire vis à vis de la parité, regardez les nuages des ingénieurs, chercheurs, cadres, et employés... Notez aussi les excès de Jean-Quelquechose chez les ingénieurs et les cadres.).
Etudiants :
Informaticiens :
Ingénieurs :
Employés :
Chercheurs :
Cadres :
Enseignants:
Lycéens :
Retraités :
Professions libérales :
Chômeurs :
Fonctionnaires :
Bibliothécaires :
Journalistes :
A vous de les utiliser pour nommer vos enfants (je sens que je vais me reconvertir en consultant en prénoms). Toutefois, pas de chance, vous noterez qu'aucun prénom n'est significativement sous-représenté dans le groupe des chômeurs...

Edit du 2 février : pour amoindrir l'effet de l'âge, Vincent me propose de refaire les calculs en enlevant des données les étudiants, lycées et retraités. Résultats ce soir ou demain soir... Mise à jour du 4 février : en fait ça méritera un billet séparé un peu plus long, car ces nouveaux résultats m'inspirent de nouvelles hypothèses et tests, pour les impatients les nouveaux nuages se trouvent ici et les données ...

Des lectures sur le même thème :