30 novembre 2006

Nuages du projet socialiste et du programme UMP

Les militants UMP ont voté lundi dernier pour leur programme législatif pour 2007, cinq mois après l'adoption du projet socialiste par le PS. C'est l'occasion de comparer les deux textes, et voir si on peut y trouver un peu de l'originalité lexicale à la mode en ce moment, et identifier les thèmes et les termes chers à chacun.

Le projet PS étant plus court que le projet UMP, on ne comparera donc pas les nombres d'occurences (après avoir éliminé quelques mots "parasites" très fréquents dans la langue française et peu porteurs de sens, ce que fait très bien le programme Dico, voilà le fichier résultat pour l'UMP et le PS), mais les fréquences. En effet, quand on organise les mots par fréquence décroissantes , les courbes des fréquences sont tout à fait comparables :


Les simples nuages de mots font apparaître de nombreux mots identiques dans les deux nuages, avec des variations plus ou moins importantes, il est donc plus intéressant d'effectuer un "contraste" des deux nuages. Pour cela, une méthode expéditive : si un mot est plus fréquent dans le nuage de l'UMP que du PS, on le supprime du nuage du PS et on retranche à sa fréquence dans le projet UMP sa fréquence dans le projet PS (et inversement, ce qui nous donne les fichiers suivants pour le PS et l'UMP). Au passage on peut aussi ajouter les fréquences des termes trouvés dans les deux programmes, pour obtenir un troisième fichier, de fréquences de mots communs aux deux projets. Et là, un petit coup de Freecorp TagCloud Builder, pour obtenir les trois nuages ci-dessous :

Je suis étonné de voir "culturelle", "écologie", et "mondialisation" à droite, et "violence" à gauche, cela diffère un peu des idées reçues sur les préoccupations de chaque camp. Toutefois, celles-ci apparaissent tout de même très nettement, le nuage "commun" étant aussi révélateur sur les sujets chauds du moment. Un grand absent cependant, le terme "chômage" !

27 novembre 2006

La naissance du web d'après les moteurs de recherche

J'avais examiné il y a quelque temps les nombres d'occurences sur internet, d'après Yahoo, des nombres correspondant à des années (en excluant les années divisibles par 10 qui parasitent...), et un événement étrange apparaissait : on retrouvait bien approximativement une droite "à la Zipf", mais en y regardant de plus près on voyait plutôt deux segments de droite. Après vérifications sur les autres moteurs de recherche, le phénomène apparaît à chaque fois (l'échelle pour le nombre de résultats dans le moteur de recherche, en ordonnées, est arbitraire et a été choisie pour faire coller au mieux, à l'oeil, les diverses courbes, remarquons tout de même le comportement bizarre de MSN pour "2005" et "2006") :

La moyenne nous permet de constater que le point de rupture entre les deux parties de la courbe est 1995 : il y a donc plus de pages qui mentionnent 1996, 1997, 1998, etc, qu'on pourrait s'y attendre. D'où viennent ces pages supplémentaires ?

L'explication la plus probable est que les pages créées à l'année n sont plus susceptibles de citer l'année n. On peut le vérifier en utilisant le Chronologue sur les différents chiffres correspondant aux années récentes :

Ainsi, c'est à partir de 1995 à peu près que la création de pages web a explosé ! Toutefois on peut voir que cette tendance semble s'amenuiser, puisque le segment de courbe 1996-2006 n'est pas parallèle et décalé avec le segment 1980-1995, il est juste décalé au début, mais revient maintenant "à la normale". Il reste à attendre encore quelques années pour voir comment évolue la tendance, et interpréter avec plus de précisions les phénomènes observés, ou la fin de l'année pour voir la progression de "2007" dans le Chronologue...

12 novembre 2006

Approximations et information

Je suis tombé sur un graphique intéressant dans un Figaro trouvé dans le train en rentrant d'Orléans : l'évolution des réponses des sympathisants socialistes à la question "Qui souhaiteriez-vous voir désigné(e) candidat(e) du PS à la présidentielle". Il accompagnait un article en première page intitulé "Royal s'effrite encore mais reste en tête devant DSK et Fabius". Sur le graphique en effet, on constate cet effritement, mais ce qui choque surtout c'est la remontée de popularité de Dominique Strauss-Kahn. Un examen des pourcentages montre que cette seconde impression est fausse : les trois courbes n'ont pas été mises sur la même échelle, mais dilatées (beaucoup pour Fabius, un peu moins pour DSK) et translatées, comme on peut le voir en comparant avec le vrai graphique pour ces valeurs :


On remarque aussi que le vrai graphique montrait bien la tendance d'effritement, et la remontée, visible mais toujours pas inquiétante pour les ségolistes, de DSK : ainsi il était tout à fait possible d'utiliser la visualisation des vraies valeurs plutôt que celle qui semble un peu truquée. Pourquoi le Figaro ne l'a pas fait et a préféré effectuer des changements qui donnent de fausses impressions ? Mystère.

Un autre exemple d'approximations qui m'amusent, celles qui font qu'un total arrive au dessus de 100%, c'est le cas par exemple de ce délicieux sandwich Poulet Tandoori de marque Leader Price avec 101% d'ingrédients, sans compter le soja, les crustacés et les poissons !


Dans ces cas-là il est vrai que ces bizarreries d'approximation sont tout à fait compréhensibles, j'arrive moins à m'expliquer en revanche pourquoi les gens en général et des journalistes en particulier prétendent qu'ils citent des phrases de façon exacte, en les déformant.

J'avais déjà évoqué les méfaits des copier-coller de dépêches d'agences de presse, eh bien là c'est un effet inverse. Notre exemple : une petite phrase de Ségolène Royal extraite de son intervention de janvier qui a agité la blogosphère cette semaine. Je m'étonne d'ailleurs que cette phrase n'ait pas fait plus réagir que le contenu général du discours. En effet, on a eu droit à un débat sur les 35h de présence des enseignants, sur le soutien gratuit, sur le fait que les propos avaient été coupés pour nuire à Ségolène Royale (la partie finale où justement elle explique que le soutien gratuit pour les élèves donnerait lieu à des compensations pour les professeurs). Bref, tout cela peut être débattu, on peut être pour ou contre. En revanche, si l'on prononce la question suivante "Donc comment se fait-il que des enseignants du secteur public aient le temps d'aller faire du soutien individualisé payant et ils n'ont pas le temps de faire du soutien individualisé gratuit dans les établissements scolaires ?", on émet incontestablement des suspicions sur le sérieux et la rigueur morale des enseignants. Travailler 35 heures par semaine laisse bien évidemment le temps d'effectuer d'autres activités rémunérées, sous les conditions fixées par la loi.

Des doutes formulés aussi clairement devraient être cités de façon exacte, mais ce n'est pas toujours le cas. Sur les blogs, on s'en doute, mais dans Le Monde non plus, qui négligemment remplace "des enseignants" par "les profs". On peut visualiser les différentes formes qui apparaissent sur le net grâce aux logiciels de bioinformatique qui font de l'alignement de séquences multiples, notamment GeneDoc qui est facile à installer sous Windows et à prendre en main pour obtenir le résultat suivant :


Les 7 versions de la phrase proviennent des sites suivants :
1 - Vidéo originale, Reuters, Nouvel Obs.
2 - Article du Monde
3 - Site de LCI
4 - Un blog
5 - Site Neteco
6 - ZeScoop
7 - Un forumeur sur le forum France 2

On peut alors donner à chaque mot de la phrase originale une taille proportionnelle à sa fréquence parmi les 6 variantes :


Et ceci nous permet de chercher toutes les variantes possibles sur les moteurs de recherche, en remarquant en particulier que les groupes de mots "le temps" et "faire du soutien" sont toujours conservés.

24 octobre 2006

Nuages de mots artisanaux

J'avais besoin il y a peu de temps d'un programme de construction de nuages de mots à la Nébuloscope pour visualiser les mots les plus fréquents dans des conversations de messagerie instantanée. C'est désormais chose faite avec Freecorp TagCloud Builder.

Ce petit programme gratuit consiste à charger une liste de mots avec leur nombre d'occurences dans un texte, fournie par exemple par l'utilitaire gratuit Dico de Jean Véronis. Après le réglage éventuel de quelques paramètres, le programme fournit une page html contenant le nuage de mots correspondant. J'ai naturellement choisi le style de nuages le plus joli que je connaisse... celui du Nébuloscope bien sûr (le code HTML des résultats du Nébuloscope est librement copiable, ça tombe bien ;)) ! Je trouve d'ailleurs très étonnant le succès des "tags clouds" ayant des styles beaucoup plus ternes, monochromes sur le site del.icio.us par exemple.

Passons un peu à la description des fonctionnalités du programme avant d'évoquer un problème technique. Le résultat du programme Dico appliqué sur un texte est une liste de mots au format texte détaillé ci-dessous :
N'importe quoi sur la première ligne
mot_le_plus_fréquent Nombre_d'occurences
deuxième_mot_le_plus_fréquent Nombre_d'occurences
...
(l'espace entre un mot et son nombre d'occurences étant en fait une tabulation)

Par exemple pour les mots les plus fréquents dans les avis cinéma de Monique Pantel (critique ciné dans l'émission On va se gêner de Laurent Ruquier sur Europe 1) :
Forme Fréquence
FILM 689
BEAU 149
PETIT 144
VOIR 142

Vous devez alors choisir le nombre de mots que vous voulez afficher dans le nuage (100 par défaut) et la largeur du nuage (300 pixels par défaut). D'autre part, les mots seront cliquables, un clic conduit sur une recherche Google de ce mot sur le site de votre choix, que vous pouvez configurer : c'est celui de la Wikipedia par défaut. La page web contenant le nuage est enregistrée par défaut dans le nom de fichier source, suffixé d'un ".html", et son code source s'affiche sur la fenêtre du programme, vous pouvez le copier/coller librement où vous voulez.

Un dernier paramètre est réglable, l'échelle. Ce réglage constitue le principal ennui technique des nuages de mots. Jean Véronis a apparemment réussi à le régler de façon admirable puisque les nuages font toujours bien apparaître en rouge/orange les mots les plus fréquents : ni trop ni pas assez. Il s'agit en effet de choisir à quelles plages de fréquences des mots on associe telle ou telle taille ou couleur dans le nuage. Supposons qu'on veut faire le nuage des 100 mots les plus présents, le plus présent l'étant 90 fois et le moins présent 40 fois. Sachant qu'il y a 10 variations possibles de taille/couleur, une stratégie pourrait consister à découper en 10 parties égales l'intervalle [40,89] des nombres d'occurences des 100 termes les plus présents. On écrirait donc en rouge et gras tous les mots présents entre 85 et 89 fois. En gris tout petit les mots présents entre 40 et 44 fois.

Mais rappelons-nous : les mots dans un texte sont généralement présents selon la loi de Zipf : peu de mots très présents, beaucoup de mots peu présents. D'un autre côté notre nuage doit aussi refléter cet effet, sans l'exagérer. Mais voilà ce qui se passe sur les avis de Monique Pantel si l'on choisit cette solution (image de gauche) :
Il faut donc renforcer un peu le poids des termes peu présents. J'ai donc essayé de considérer non pas les intervalles, mais les intervalles "passés à la racine", ce qui donne l'image de droite. Mieux, mais encore pas ça.

Quand on "passe les intervalles au log", on obtient un résultat à peu près satisfaisant qui montre bien l'enthousiasme de Monique pour certains films :
Ca reste toutefois peu robuste, et je réfléchis donc à une solution alternative, qui découperait l'intervalle des nombres d'occurences de façon "intelligente" par un algorithme de clustering des nombres d'occurences en 10 classes.

Voilà pour finir le nuage des 300 mots les plus fréquents dans les critiques de Monique Pantel de ces deux dernières années grâce à Dico et Freecorp TagCloud Builder !

15 octobre 2006

Croissance quadratique des traductions européennes

Emission très intéressante sur Europe 1 hier, annoncée par Jean Véronis la semaine dernière. En bonus de la discussion sur la cyberlangue qui sera certainement approfondie dans un livre comme évoqué en fin d'émission, le co-animateur Nicolas Delourme évoque à la mi-temps l'explosion des demandes en traduction des institutions de l'Union Européenne (traductions effectuées par la Direction Générale de l'Interprétation) avec l'élargissement, déjà évoqué par exemple dans un article de La Libre de 2003.

Et là les mathématiques sont un poil malmenées. Nicolas Delourme commence par citer les langues actuellement gérées : anglais, allemand, français, italien, espagnol, néerlandais, grec, portugais, sudéois, danois, finnois et depuis l'élargissement de 2004, estonien, hongrois, letton, lituanien, maltais, polonais, slovaque, slovène et tchèque.

Pour calculer le nombre de sens de traductions, c'est simple, on a 20 langues-sources à traduire, et pour chacune 19 possibilités de langue-destination, soit 380 possibilités. Ce qui nous donne, pour n langues, n(n-1) possibilités de sens. Au passage, dommage que les interprètes/traducteurs ne soient apparemment pas parfaitement billingues, ce qui diviserait ce nombre par deux (il faut d'après ce calcul un interprète du français vers l'anglais, et un autre de l'anglais au français). De toute façon la croissance du nombre de sens de traductions en fonction du nombre de langues est quadratique (proportionnel au carré du nombre de langues) et pas exponentiel comme le dit Nicolas Delourme :

"Et comme le nombre de possibilités, pour utiliser un terme qui va plaire à Jean Véronis, comme le nombre de possibilités est exponentiel, à chaque fois que l'on rajoute une langue, la DGT doit aujourd'hui faire face à 380 combinaisons possibles, aussi bien en traduction de texte qu'en interprétation de discours."

Alors évidemment, le terme "exponentiel" est certainement plus parlant que "quadratique" pour évoquer une hausse importante. Mais il faut bien avoir à l'esprit qu'une complexification quadratique (ou même polynomiale) d'un problème par rapport au temps est tout à fait maîtrisable, grâce par exemple à la loi de Moore, qui nous promet que nos moyens de calculs bénéficient d'une croissance exponentielle : les performances sont doublées à peu près tous les 2 ans, les prix divisés par deux dans la même période. Et même plus généralement que cette "loi" qui s'applique typiquement sur le champ restreint du matériel informatique, on attend généralement du chiffre d'affaire d'une entreprise, ou du PNB d'un état, une croissance constante en pourcentage, soit une valeur en hausse exponentielle par rapport au temps.

Ainsi, tant que chaque langue ne donne pas naissance à 2 langues-filles à chaque décennie (ce serait rigolo, que la communauté européenne multiplie le nombre de ses langues par deux en considérant la version SMS de chacune...), le budget nécessaire à la traduction gardera une progression quadratique tout à fait gérable.

Evidemment, l'existence de la loi de Moore ne constitue pas un prétexte pour se dire qu'il est inutile de chercher à faire des économies en étant plus efficace, et le système de langues pivots qui consiste à avoir une traduction en deux temps (3 interprètes pour la langue actuellement parlée, un vers l'anglais, un vers l'allemand et le troisième vers le français, ainsi qu'un interprète d'une de ces trois langues vers chacune des 19 langues) est intéressant dans l'optique d'une économie de moyen (même s'il est nécessaire en pratique pour éviter de rechercher des interprètes du lettonien au portugais...). Mais le résultat du calcul mentionné par Nicolas Delourme est erroné, il compare les 380 possibilités des traductions exhaustives, à 60 dans le cas des langues-pivots (détail sur le travail des "interprètes relayeurs" page 9 de ce document) :

"Ce procédé permet déjà de limiter le nombre d'interprètes à 60 pour un régime complet de traduction. [...] 60 interprètes seulement pour 380 combinaisons possibles."

En fait, il faut pour chacune des 20 langues une traduction vers l'anglais, l'allemand et le français, ce qui donne 60, moins les traductions anglais-anglais, allemand-allemand, et français-français, ce qui fait 57. Et une fois que les traductions dans les trois langues pivot ont été obtenues, il faut les traduire vers seulement 17 langues, ce qui donne 57+17*3=108. De façon plus intelligente, on peut même traduire seulement l'une des 3 langues pivot vers une des 17 autres langues, soit un résultat total de 57+17=74 sens de traduction différents.

Cet exemple est typique d'erreurs que l'on peut faire lors de calculs de probabilités ou de combinatoire qui semblent très simples apparemment, mais qui s'avèrent cacher des cas particuliers ou des répétitions à considérer... Quoi qu'il en soit, ces calculs sont seulement théoriques puisqu'on n'emploie pas exactement un traducteur par sens de traduction comme expliqué dans l'article de La Libre...

2 octobre 2006

McDonald's, MacDo, Mac Donalds, et Voronoï

Je suis allé manger indien cette semaine (en fait c'était il y a 3 semaines. Mais bon, c'est juste une phrase introductive, hein, et on écrit pas, dans un blog, j'ai fait ceci-cela il y a 3 semaines...). Un Indian Maharadja et ses saveurs envoûtantes. Eh oui, Mac Do a encore frappé pour se démarquer un peu de la concurrence, agrémentant ces nouvelles recettes temporaires de petites vidéos publicitaires sur le net.

Mais MacDo ce n'est pas seulement ça. C'est aussi une chaîne qui arrive toujours à se placer dans les coins les plus chics/pratiques de nos villes françaises j'ai récemment profité du délicieux McDonald's du centre-ville narbonnais, ainsi que de celui très pratiquement situé juste en face de la gare à Montpellier). Qui nous impressionne quand on suit le ballet efficace des serveurs. Qui nous enchante avec son wifi gratuit (enfin faut pas pousser, on nous demande gentiment de ranger notre ordi s'il y a trop de monde). Et qui nous surprend avec son coin café dans le resto de l'avenue des Champs Elysées aux prix défiant toute concurrence aux environs.

Avec tant d'avantages, on comprend que connaître en permanence le McDo le plus proche est une nécessité. Surtout à Paris. Voilà donc le diagramme de Voronoï (la précision n'est pas excessive, hein) des restaurants Mc Donald's à Paris (les points rouges) :
Diagramme de Voronoï des McDos parisiens
Evidemment, comme j'ai été un peu large sur la précision, les distances sont les simples distances à vol d'oiseau, et j'ai utilisé l'applet Java de Paul Chew (ainsi qu'une technique de "décalquage";)). On pourrait s'amuser à le recalculer en utilisant comme distances celles vraiment parcourues à pied à travers les rues de Paris.

J'ai ajouté quelques repères en vert pour situer un peu les restaurants, et les couleurs d'arrière-plan correspondent bien sûr aux arrondissements. J'aurais bien aimé inclure une carte satellite en fond pour en faire une jolie version imprimable utile. Mais pour des raisons de droit d'auteur, je laisse les heureux possesseurs de Microsoft PowerPoint >97 ouvrir ce fichier source du diagramme de Voronoï des McDo, et coller en arrière-plan la bonne carte Google de Paris dont ils auront préalablement fait une copie d'écran, puis la redimensionner un peu pour qu'elle colle au dessin.

Le diagramme a une autre application, prédire où les prochains Mac Donald's risquent d'être implantés à Paris. En effet, il est préférable de les mettre dans des grandes alvéoles de Voronoï, si possible sur une des frontières, ou mieux, à un point où elles sont concourantes. Je prédis donc que McDonald's achètera prochainement les Invalides, le Palais de l'Elysée, la Bibliothèque François Mitterrand...

Pour finir sur Mc Do, une petite remarque sur les formes orthographiques de la marque. Déjà vous remarquez que la société a pris soin de référencer plusieurs formes en les incluant comme mots-clés de sa page d'accueil, comme on peut le voir dans les résultats Google :
McDonald's France, restauration rapide
... plan des restaurants, offres d’emploi, offres de stage, fondation Ronald McDonald, Mac Donald, Mc Donald, McDonald, Mac Donald’s, Mac Donalds, Mc Do ...www.mcdonalds.fr/


Et si on compare les diverses formes (entourées de guillemets bien entendus) par rapport au nombre de résultats dans Google ou Yahoo, ainsi que les résultats limités aux pages françaises, on apprend... que l'abréviation McDo (ou Mc Do, ou Mac Do ou MacDo) est typiquement hexagonale ! Je vous laisse apprécier le joli camembert couronné exécuté dans OpenOffice (mon pauvre Microsoft Office 97 n'arrive pas à le faire, ça...) : Orthographe de McDo dans les moteurs de recherche

1 octobre 2006

Quand la loi de Zipf atteint le nombre des années...

J'ai étudié le nombre de résultats Yahoo (parce qu'on sait bien que Google pour faire des stats c'est mââl) pour tous les nombres à 4 chiffres entre 1901 et 2006, et la loi de Zipf semble pointer le bout de son nez. En effet le nombre de résultats n(x) semble inversement proportionnel au nombre x recherché. Pour visualiser cela un peu mieux, je trace non pas la courbe de n(x), mais celle de 1 000 000 000/n(x), en pensant obtenir à peu de choses près une droite. Au passage, je ne représente pas les valeurs pour x divisible par 10, puisque ces nombres sont généralement beaucoup plus présents sur le web que leurs voisins, et créent donc du bruit dans les données obtenues (du bruit, étant donné l'utilisation qu'on veut en faire, cf ci-dessous). Voilà le résultat obtenu, avec en violet la droite de régression linéaire de ces points (merci OpenOffice Calc) :

On peut remarquer que globalement, les points sont bien proches de cette droite, à part après 2006. Mais en zoomant un peu plus, on voit que le comportement diffère entre 1995 et 2006. C'est donc plutôt deux segments de droite qui semblent décrire le mieux les valeurs obtenues, entre 1901 et 2006.

Je m'attendais à visualiser plus clairement certaines "années clé", comme 1914, 1918, 1939, 1945... C'est en effet le cas pour 1945 qu'on voit plus bas que prévu (étant plus cité sur le net que 1944 ou 1946), ou 1901 (vive la loi sur les associations !).

Bon, et maintenant, quelle utilité à cette remarque ? Eh bien justement à évaluer la pertinence des résultats chiffrés des moteurs de recherche pour faire des statistiques. Il s'agira tout d'abord de déterminer expérimentalement quelle loi semble la plus correcte (par exemple : il y a forte corrélation entre 1/x et le nombre de pages sur internet contenant le nombre x pour x allant de 1901 à 1994, avec x non divisible par 10). Si ça semble effectivement être le cas sur tous les moteurs, le coefficient de corrélation trouvé permettrait d'évaluer la qualité du moteur pour une utilisation statistique (notamment de calcul de la NGD).

24 septembre 2006

Taguer, tagguer ou tagger ?

Gros dilemme orthographique aujourd'hui : comment j'écris "to tag" en français ? Je me suis précipité sur Google qui est de temps en temps mon correcteur orthographique adoré. Evidemment impossible de rechercher simplement l'infinitif, puisque "tagger" est parasitée par la forme du nom anglais.

J'ai donc cherché plusieurs formes conjuguées, en mettant des guillemets, du genre : "j'ai taggé" "j'ai taggué" ou "j'ai tagué". Les résultats sont assez surprenants :

Une fois encore on constate que Yahoo semble meilleur que Google pour faire des stats : la large domination, dans la moyenne, de la forme "taguer" sur Google est due seulement à "ils ont tagué", les résultats auraient été bien plus resserrés sans cette forme.

En tout cas le fin mot de l'histoire ("taguer" est la forme correcte) se trouve dans tout bon dictionnaire, et les explications dans un des commentaires ici, c'est très intéressant. Il est étonnant de trouver la forme "tagger" autorisée aussi dans l'Officiel du Scrabble comme indiqué sur ce site.

Merci à Muff pour la remarque à l'origine de cette investigation. En fait elle concernait les mots en français qu'on peut écrire avec les 4 lettres de l'ADN, A C G et T. J'aimerais bien connaître la plus longue phrase qu'on peut écrire avec ça, vous avez mieux que "Ta tata gaga tagga ça" (valide grâce à l'Officiel du Scrabble, donc ;)) qui est présente dans notre chromosome 6 (rechercher dans la page "tatatatag agataggaca") ?

14 septembre 2006

Connais-toi toi-même... avec un miroir ?

On a vu au dernier post comment une analyse de ses logs de messagerie instantanée pouvait permettre de mieux se connaître, en découvrant certaines particularités de la langue que l'on utilise. Un exposé de Gérard Berry me permet d'aborder l'outil idéal pour se connaître, au moins physiquement, le miroir.

Comme ses confrères informaticiens de l'Académie des Sciences (portes ouvertes de l'Institut pour ce weekend du patrimoine !), Gérard Berry est un excellent orateur. Dans un exposé très généraliste sur l'"ère du numérique", il a réussi à pimenter l'argumentation classique (les programmes informatiques sont partout, une bonne raison pour les débugger attentivement et les vérifier automatiquement) par des parenthèses et illustrations originales.

On a eu droit notamment à un petit test de cognition. Impossible d'en retrouver la référence sur internet après coup, voilà donc un dessin inspiré de celui qui nous était présenté. Il s'agit de regarder les deux visages et de dire si l'un vous paraît plus souriant que l'autre.


Alors ?

Vous l'aurez compris, celui de droite est simplement le symétrique de celui de gauche, et pourtant il semble plus content. Alors l'explication, ce serait en gros qu'à cause du "câblage du cerveau", on a plus tendance à regarder la moitié que l'on voit à gauche dans le visage des gens, c'est à dire la moitié droite de leur visage. Et là, gros problème...

Dans un miroir, on regarde donc principalement la partie que l'on voit à gauche dans le miroir, c'est à dire notre moitié gauche ! Un petit coup d'oeil rapide sur le miroir ne nous permettra donc pas de remarquer une anomalie sur votre moitié droite, qui sautera aux yeux de la première personne que vous croiserez !

Evidemment, j'ai la solution pour éviter ce désagrément : remplacer votre classique miroir par un écran plat, surmonté d'une caméra, afin de bien réaliser l'inversion et vous montrer à vous tel que les autres vous voient. Voilà ce que c'est, s'intégrer pleinement dans l'ère du numérique !

31 août 2006

Connais-toi toi-même

Jean Véronis nous avait montré comment mieux comprendre les pensées et projets de Nicolas Sarkozy ainsi que "Valéry Giscard d'Estaing et ses amis" en analysant leurs discours et écrits. Et si le traitement automatique des langues vous permettait d'en savoir plus sur vous-même ?

C'est tout à fait possible si vous êtes utilisateur de messagerie instantanée, comme 48% des internautes français et plus de 300 millions de Terriens à ce jour. Enfin, à condition de cocher l'option de votre logiciel permettant l'enregistrement de vos conversations (sous MSN et GAIM en particulier c'est possible), et de bidouiller un peu pour en extraire les informations intéressantes (ou d'attendre la mise en ligne de l'analyseur automatique, quand j'aurai un peu avancé dans la todo list qui a occupé mon été au détriment de ce blog... et de mes vacances).

Rebaptisons vos amis (ou "relations", j'adore l'utilisation de ce terme chez copaindavant) Pote_i, i variant de 1 à... plus ou moins beaucoup, disons n pour rester discrets. Parmi ces n seront présents uniquement ceux que vous contactez régulièrement : en effet, des statistiques significatives ne fonctionnent que sur des données assez conséquentes. Disons plus de 1000 lignes (5000 mots). Appelons Moi_i l'ensemble de vos écrits à Pote_i, et Ami_i, l'ensemble de ses écrits à votre intention. Le premier problème pratique consiste à créer un fichier texte pour chacun de ces ensembles.

Pour Gaim, chaque conversation entre une ouverture et une fermeture de fenêtre est enregistrée dans un fichier à part. Chaque ligne est précédée par l'alias de l'interlocuteur qui parle. J'ai donc programmé un petit utilitaire pour sélectionner uniquement les lignes suivants certains alias sélectionnés. Merci au passage à ceux qui changent d'alias comme de chemise, ou de chanson de Rammstein dans leur playlist (suivez mon regard, ceux qui comprennent la private joke...). Donc bon, voilà, un fichier texte avec tout Ami_i, un autre avec tout Moi_i. Ou plutôt 2n fichiers pour mes n contacts MSN.

Et maintenant, on peut commencer l'analyse. Quels outils pour ça ? En attendant le bidule tout-automatique, décrivons une procédure "alla mano". Allez, commençons par ouvrir Microsoft Word et Excel (ou leurs équivalents libres OpenOffice, on décrit la procédure microsoft-friendly ci-après...). Word, c'est pour leur excellent outil de statistiques. Ironie mise à part, connaître le nombre de mots de votre fichier Ami_i et Moi_i (grâce au menu Outils, Statistiques) est une condition préalable pour toute analyse. En bonus vous avez le nombre de caractères et de lignes qui vous permet après divisions de connaître la longueur moyenne des mots que vous utilisez (4,5 à peu près pour moi, un pote égyptien avec ses "yo" et ses "mec" descend à 3,8), et celle de vos lignes (quelques passages enflammés me font monter à plus de 6 mots par ligne, alors que 4-5 semble plus répandu chez mes interlocuteurs).

Passons maintenant au coeur de l'analyse. Il s'agit d'extraire les mots les plus fréquents. C'est là qu'Excel vous filera un coup de main, en vous permettant de réserver une colonne pour lister les mots de Moi_i ou Ami_i, la suivante pour le nombre d'occurences de chacun, et la dernière pour les fréquences, en divisant la seconde par le nombre de mots du texte total. Ca, c'est pour jouer un peu : intuitez des mots que vous pensez utiliser fréquemment avec Pote_i, ou qu'il utilise fréquemment d'après vous, et mettez-les dans ce tableau. Pour en connaître le nombre d'occurences, en attendant mieux (paragraphe suivant), vous pouvez l'approximer en faisant un Ctrl H (rechercher-remplacer sous Word) et rechercher le mot voulu, le remplacer par lui-même. Cliquer sur Remplacer tout vous donne le nombre d'occurences trouvées. Une fois que vous aurez joué à ça, vous pourrez connaître les mots véritablement les plus fréquents, c'est le (déjà fameux) paragraphe suivant !

Nous cherchons à extraire de Moi_i et Ami_i les mots les plus fréquents avec leur nombre d'occurences. Pour cela, nous allons utiliser un programme de devinez-qui ? Jean Véronis ! Son pratique et rapide Dico. Installez le programme, exécutez-le, ouvrez le fichier texte contenant Moi_i et Ami_i, cochez éventuellement la case Antidico qui permet de cacher les mots les plus fréquents en français dans l'analyse, puis cliquez sur Filtrer. Et là, magique, en quelques secondes, la liste des mots avec leur nombre d'occurences, triable par ordre alphabétique ou par nombre d'occurences, s'affiche.

Et là vous pouvez commencer par finir le jeu qui consistait à deviner quels mots vous utilisiez le plus souvent dans vos conversations avec Pote_i. Vous serez impressionné d'avoir eu de très bonnes intuitions pour certains !

Mais allons plus loin, comment mieux se connaître avec cet outil ? Pour tous les fichiers Moi_i, calculez (en utilisant Excel sur les données de Dico) les fréquences des 50 mots les plus présents. Le faire pour chaque fichier vous permet de voir la variabilité des fréquences, afin de vérifier si la fréquence d'un mot est une constante dans votre conversation, ou si elle est spécifique aux conversations avec un de vos contacts MSN. Puis il s'agit de vérifier si cette haute fréquence est vraiment une de vos spécificités, ou si elle est présente chez tout le monde. En attendant mieux (héhé, un petit nébuloscope des mots les plus fréquents chez vous, contrasté avec le nébuloscope de ces mêmes mots cités par vos contacts), vous pouvez calculer la moyenne des fréquences de ces mots dans tous les fichiers Pote_i, et par exemple représenter le résultat pour les plus fréquents sur un histogramme dans Excel. Si vous voyez un mot au même niveau pour toutes vos barres de Moi_i, et à un niveau très différent pour la barre de moyenne dans Amis_i, vous avez identifié un peu de votre patois bien à vous ! Pour moi, j'aime bien "truc", "genre", "oué"...

Passons maintenant à l'identification de vos relations avec vos amis. Il s'agit là d'identifier les mots qui apparaissent souvent dans Ami_k + Moi_k, et peu souvent dans les Ami_i + Moi_i, pour i différent de k. Pas mal de "cours" avec une camarade de classe par exemple.

Bon, et évidemment on peut passer à une dernière application plus sournoise, celle d'en savoir plus sur vos amis. Vous serez par exemple surpris de remarquer les mots utilisés pour vous interpeler, vous saluer. Pour ça, bien sûr, comparer Ami_k, avec les Ami_i, pour i différent de k. Quelques autres mots intéressants, voire surprenants,dont vous pourrez aussi vérifier la fréquence : "merci", "tu", "je", "!".



La prochaine étape, c'est de mettre tout ça dans un logiciel en précisant que la divulgation d'extraits de correspondance personnelle sans l'avis de ses interlocuteurs est passible de x horreurs. Etape suivante, ajouter une couche d'apprentissage automatique afin de caractériser une relation entre individus à partir de leurs conversations MSN...

8 juillet 2006

Teaser (suite) et parenthèse UNITAID

Eh oui, vous l'avez deviné en déchiffrant les Taubira, Montebourg ou Strauss-Kahn, l'arbre phylogénétique de mon post précédent était celui des députés en fonction de leur proximité de vote aux 6 derniers scrutins publics à l'Assemblée Nationale.

Evidemment c'est complètement illisible, non seulement à cause du nombre élevé de députés, mais aussi du fait que certains ont bizarrement l'étrange idée de voter pareil, ce qui les regroupe tous sur une "grosse" feuille de l'arbre. Vous imaginez aussi qu'un groupe a la fâcheuse tendance de voter tout le contraire de l'autre, d'où deux "grosses" feuilles de part et d'autre d'un arbre qui ressemble plus à une chenille (ou un peigne) qu'à un poirier taillé en U-espaliers.

Il n'empêche qu'ajouter des scrutins, et faire précéder le nom des députés par leur parti permettra certainement d'y voir un peu plus clair (des couleurs, ce serait encore mieux, mais pas facile de façon automatique...). Encore un peu de patience, donc.

On peut féliciter le webmaster du site de l'Assemblée Nationale pour sa clarté et la disponibilité de nombreuses informations. Jean Véronis nous avait déjà parlé des didascalies dans les compte-rendus intégraux des débats, les exclamations diverses de députés sont encore plus savoureuses, par exemple dans les derniers débats sur la DAVDSI. Mais le site propose aussi les relevés des votes des députés lors des scrutins publics, dans des fichiers facilement exploitables de façon automatisée.

Si ces pages peuvent donner l'impression que l'appareil législatif se met à la portée des français, ou des internautes, ce qui est très appréciables, quelques aspects du travail des députés reste un peu obscur.

J'aimerais bien qu'on m'explique exactement ce qui a bien pu se passer avec les députés William Dumas et Jérôme Lambert, "qui étaient présents au moment du scrutin ou qui avaient délégué leur droit de vote ont fait savoir qu'ils avaient voulu voter contre", mais qui sont quand même présents dans la liste des "pour" ! Enfin, tant mieux, ça permet de les différencier dans l'arbre phylogénétique ;).

D'autre part, ce qui concerne le vote de la taxe sur les billets d'avion afin de financer l'achat groupé de médicaments pour les pays pauvres, le projet FIAM/UNITAID, est assez obscur. L'idée a apparemment été lancé par les présidents Lula et Chirac dès 2003, et votée par l'Assemblée Nationale le 22 décembre 2005. Votée ? On va donc trouver sur le site assemblee-nationale.fr une grosse loi définissant précisément l'utilisation de l'argent ainsi récolté, et une journée de débats sur le projet et les détails de sa mise en oeuvre ?

Euh, non. Cette loi est juste un petit article (22 dans la version définitive, 18 dans le texte débattu) de la "loi de finances rectificative pour 2005". En effet, des discussions ont eu lieu sur le sujet avant le vote, mais les débusquer n'est pas chose facile. Il faut tout d'abord identifier l'emplacement du dossier concerné, puis jouer du Ctrl-F pour trouver les emplacements du mot "avion" dans le diverses pages de débats. C'est en fait la première séance du 8 décembre qui a été principalement consacrée au fameux article 18. Les discussions du 22 décembre précédant le vote final des députés y contiennent aussi quelques mentions.

Le projet n'était en tout cas pas clairement défini d'un point de vue pratique, et le projet ne commence à être connu du grand public qu'en juin 2006 (Chronologue, Google Trends). Entre temps, c'est visiblement le Ministère des Affaires Etrangères qui s'est chargé d'exporter cette idée dont certains députés regrettaient lors des débats la restriction au territoire français. De plus, des partenaires sont venus soutenir le projet, aider à le faire connaître au grand public. Parmi eux, la FIFA ou TF1, qui accorde un peu de publicité gratuite sur ses ondes (on apprend grâce à Patrick Fiori que le projet s'appelle phonétiquement "You Night Ed")... voire plus : ils apparaissent comme "registrant" du très officiel unitaid.eu créé le 22 avril 2006 d'après whois.eu.

Ce site contient entre autres une pétition à signer par internet ou SMS. D'après la publicité pleine de stars diffusée sur TF1, plus on sera à signer, plus les gouvernements étrangers seront incités à faire voter une loi similaire pour les taxes sur les billets d'avion dans leur pays. La liste des signataires nous montre que certaines des stars de la pub sont apparemment vraiment convaincues par le message qu'elles y incarnent :
05/06/2006 22:26 Florent PAGNY SMS
05/06/2006 22:27 NADIYA SMS
05/06/2006 22:28 Danny BOON SMS
05/06/2006 22:28 Gad ELMALEH SMS
05/06/2006 22:30 Lara FABIAN SMS

En revanche, pas de trace de Patrick Fiori, Nolwenn Leroy, Elie Semoun, ni Julien Clerc. Heureusement, ces absences sont compensées :

08/07/2006 23:10Zinedine zidane
SMS
11/06/2006 00:41Zinedine zidane
SMS
10/06/2006 20:03Zinedine zidane
SMS
08/07/2006 21:52Jacques Chirac
SMS
01/07/2006 18:37jacques chirac
SMS
11/06/2006 20:24Jacques Chirac
SMS

Enfin s'il faut retenir un point positif de ce projet qui semble encore difficile à définir et cerner, c'est bien que cette agitation un peu chaotique qui est passée dans divers états successifs (idée venant de 2 présidents, article de loi français, promotion d'une idée à l'international, centre d'un partenariat d'entreprises, pétition française...) semble tout de même converger vers une belle réalisation. Est-ce ça que les français attendent de leurs hommes politiques ? Qu'ils s'éloignent des cheminements habituels pour faire preuve d'originalité et finalement d'efficacité dans la réalisation de leurs idées ? L'année qui vient répondra certainement à cette question, tant en ce qui concerne les attentes des français... que de l'évaluation de l'efficacité d'Unitaid.

28 juin 2006

Teaser...

Pour fêter la sortie (le 12 juin) du logiciel de construction d'arbres et réseaux phylogénétiques SplitsTree 4.5 (avec, en écran d'accueil du logiciel, une jolie photo, de la Nouvelle Zélande, j'imagine), bientôt, sur ce blog, un nouvel arbre phylogénétique intéressant...

Ou pas... Vous voyez ce que ça peut être ?

20 juin 2006

Explique les pics !

Jean Véronis nous disait récemment comment quantifier l'importance des pics observés dans les résultats du Chronologue, en appliquant un logarithme (pour se rapprocher de l'échelle de Richter) sur la différence max-min de la courbe. Mais comment expliquer la présence de ces pics ?

Google Trends le fait assez bien. Rappelons que ce site fournit une courbe similaire à celle du Chronologue : "popularité" d'un terme ou d'une expression sur le web par rapport au temps, la popularité étant ici évaluée en fonction du nombre de recherches sur le moteur Google. Et là, Google utilise Google News pour chercher dans les actualités de l'époque les articles se rapportant au sujet. Bel exemple d'interaction dans la Galaxie Google !

Mais la Galaxie Véronis en forte expansion elle aussi pourrait faire pareil, en utilisant... le Nébulsocope ! On commence par cibler l'emplacement du pic. Pour cela, appelons C(d) le nombre de résultats du Chronologue à la date d. soit d_m la date correspondant au maximum (global, pour le local il faudrait être un poil plus subtil, par exemple considérer la courbe de la fonction restreinte aux dates où C(max_local)) de C. On considère les deux dates les plus proches de d_m, une avant, d_b et l'autre après, d_a, qui sont à l'intersection entre la courbe de C et la courbe constante de valeur la moyenne de C sur toutes les dates (plus formellement : d_b = min{d > d_m / C(d_b) ‹ moy (C)}). On peut alors appeler le Nébuloscope sur la requête initiale (trucbidule), ainsi que sur la requête accompagnée des précisions de date : trucbidule dd>d_a dd<d_b. On choisit Contraster plutôt que Comparer, bien sûr, pour mieux extraire les spécificités du nuage de mot à la période ciblée.

Un petit exemple pour comprendre : comment expliquer le pic d'Ardisson en novembre-décembre 2005 ? Google Trends le marque moins, et reste muet sur le sujet. Mais on peut identifier les dates de début et de fin du pic (à la louche) : il y a 230 jours, et il y a 200 jours. Appelons le Nébuloscope avec ces paramètres !
Les mots qui se détachent : ardisson, aime, vie, baby-boomer. Voilà les mots-clés qu'il faudrait indiquer sous les pics du chronologue ! En cliquant sur baby-boomer pour préciser, on voit qu'il s'agit de l'autobiographie de notre animateur vedette, Confessions d'un baby-boomer, publiée à l'automne 2005. Vivement le pic pour le bouquin de Jean Véronis et Louis-Jean Calvet...

7 juin 2006

GoogleFight (pour l'orthographe), le retour

De jolis contrexemples au GoogleFight appliqué à la levée d'ambiguïtés orthographiques sur le blog de Dado : "acquis de conscience" au lieu d'"acquit de conscience", "autant pour moi" au lieu d'"au temps pour moi".

Et avec un seul mot ? J'ai seulement "traffic" au lieu de "trafic". D'accord, la faute vient ici du fait que GoogleFight, même en version française, ne se restreigne pas aux pages francophones et se laisse donc parasiter par la forme anglaise (merci à Renault de m'avoir permis de corriger mon dictionnaire cérébral après un embouteillage derrière un de leurs Trafic). Bref, pour être vraiment sûr, une autre possibilité de test en alternative au GoogleFight : proposer à Google les deux écritures dans une seule requête. Pour traffic trafic, on se rend compte que la seconde forme est dominante pour les premiers liens. Pour des expressions, comme "autant pour moi" "au temps pour moi", il faudra plutôt suivre les premiers liens pour lire les discussions passionnées sur le sujet, et en extraire la réponse correcte.

Sur ces histoires de corrections orthographiques inexactes, une anecdote de Derek Corneil, chercheur canadien en théorie des graphes, qui fait relire sa thèse tapée à la machine à son épouse. Elle passe la journée à éliminer patiemment toutes les erreurs et conclut le soir venu : "Je sais que tu as des problèmes avec l'orthographe, mais quand même, écrire 'if' avec deux 'f' !"

1 juin 2006

Créations lexicales et graphe sémantique

Une question intéressante en commentaires du dernier post de Jean Véronis. Spinodo - Charles Mougel a dit…

Quel est la probabilité, pour qu'une personne, associe ces deux mots, au cours de sa vie ?
- "ordre" et "juste".
Il me semble qu'il est loin d'être nul. Car ordre et la justice, sont tout de même des notions qui reviennent souvent dans le vocabulaire politique ou religieux, non ?
Quelles sont les chances de naissance indépendante de ce couple de mots ?
Depuis un petit moment déjà, j'ai comme projet de créer un petit graphe sémantique à partir d'un dictionnaire : des points, chacun représentant un mot, sont reliés s'ils sont souvent cités dans une même définition du dictionnaire, ou si l'un est cité dans la définition de l'autre, la longueur des liens étant proportionnelle à une certaine distance. J'espère que ce truc pourrait donner un graphe qui rapproche bien (en terme de plus court chemin entre deux points) des termes entre lesquels on peut faire des associations d'idées facilement.

Si c'est le cas, la distance entre deux mots, par exemple "ordre" et "juste", pourrait refléter la probabilité que les deux mots soient naturellement associés par un individu lambda, la probabilité que le couple "ordre juste" soit créé (peut-être faudra-t-il au passage vérifier/imposer au passage que le groupe de mot créé soit grammaticalement correct). La comparaison entre la probabilité théorique de création des couples (d'après le dico) et la création effective se ferait en comparant ces distances et les distances Google (Normalized Google Distance). Le nombre de couples de mots "créés" par une seule personne étant vraisemblablement plus rares que ceux apparus naturellement (plusieurs créations indépendantes), on peut attendre que les deux distances soient en général cohérentes... les exceptions représentant justement les créations lexicales d'une seule personne.

Bon, bon, je suis peut-être trop optimiste... et surtout créer le graphe sémantique demande un certain temps de programmation que je n'ai pas, donc pas moyen de faire une petite vérification rapide de ce que j'espère. Un week-end tranquille en juin, peut-être...

24 mai 2006

Arbres phylogénétiques, le making-of...


Un petit tuto rapide pour construire l'arbre phylogénétique, en supposant que vous avez réussi à obtenir d'une manière ou d'une autre la matrice des distances entre les différentes feuilles de cet arbre.

La première phase, et la plus compliquée, c'est de mettre cette matrice au format NEXUS, dont voici un exemple (tronqué, c'est juste pour comprendre) pour les distances-Eurovision entre les feuilles constituées par les pays européens :

#nexus
BEGIN Taxa;
DIMENSIONS ntax=39;
TAXLABELS
[1] 'Europe'

[2] 'Albania'
...

[39] 'Armenia'
;
END; [Taxa]
BEGIN Distances;
DIMENSIONS ntax=39;
FORMAT labels=left diagonal triangle=both;
MATRIX
[1] 'Europe' 0 8.03446523273329 6.94527480392245 6.08492529025624 6.42978267610967 7.61404519345663 5.99341744182733 6.90728067447675 6.92250335008947 6.7219201517126 6.68265626349283 7.07664803208412 6.71800408960876 6.32663542414134 6.01095491165921 7.08036573532752 7.29275054598743 6.54337752800494 6.95284871559852 6.66293755351196 7.30356798161008 8.31770464286873 7.08408148781478 6.89202437604511 6.01970448643453 6.74926896633998 7.00939219533334 6.99435862906671 6.86907639526596 6.67477576986673 6.60342813696038 6.59146178203287 7.63130671012508 6.75316689827817 6.55944477757074 7.28191704086225 6.89202437604511 6.43796306466572 7.17635004706431
...

[39] 'Armenia' 7.17635004706431 7.68114574786861 8.24621125123532 6.48074069840786 8.36660026534076 8.24621125123532 7.21110255092798 7.74596669241483 8.60232526704263 7.74596669241483 7.74596669241483 6.92820323027551 8.48528137423857 8 8.36660026534076 8.24621125123532 8.94427190999916 7.61577310586391 7.61577310586391 6.78232998312527 7.74596669241483 8.94427190999916 9.16515138991168 8.60232526704263 7.34846922834953 7.21110255092798 7.34846922834953 8.48528137423857 7.48331477354788 7.74596669241483 8.60232526704263 8.12403840463596 8.71779788708135 7.34846922834953 7.87400787401181 8.83176086632785 6.92820323027551 7.34846922834953 0
;
END; [Distances]


Alors certes, si vous l'avez dans un fichier Excel par exemple, vous pourrez vous arranger pour l'exporter en .CSV, puis jouer avec RECHERCHER/REMPLACER pour obtenir des espaces entre les différentes valeurs dans votre matrice... Mais il vaut mieux programmer un outil qui le fasse tout seul. Pour l'instant, je n'ai fait que des utilitaires très spécialisés au code affreusement crade, donc non distribuables en téléchargement direct sur internet...

Une fois ce pénible travail réalisé, passons au miracle Splitstree (4) dont vous aurez téléchargé auparavant la version adaptée à votre système d'exploitation (eh oui, c'est fait en Java, donc multiplateforme...) qui va trivialiser la fin de la construction.

Vous exécutez donc le programme, voilà à quoi ça ressemble :

Cliquez sur le 3° onglet, Source. Copiez-collez le code NEXUS dans cette fenêtre (ou utilisez le menu File, Open...), puis cliquez sur l'onglet Network. On vous avertit que l'entrée a changé et on vous suggère de prendre en compte les modifications (Input has change, execute it?), ce que vous acceptez sans frémir par un Yes assuré. Et là un truc affreux apparaît, un réseau phylogénétique. Affreux parce que pas compréhensible par un oeil non exercé (en fait, le truc permet de visualiser plus d'informations qu'un arbre phylogénétique, mais bon, ne nous étendons pas là-dessus, et tentons plutôt d'obtenir un arbre classique...). Dans le menu Trees, choisissez donc BioNJ si vous êtes chauvin, NJ si vous voulez rédiger l'article Wikipedia qui explique la méthode, et UPGMA si vous vous moquez d'obtenir un mauvais arbre mais que vous tenez à savoir comment il a été construit. Disons que vous prenez BioNJ, cliquez sur le bouton Apply dans la fenêtre qui apparaît.

Vous pouvez alors fermer cette fenêtre pour avoir un aperçu du résultat. Vous pouvez tenter d'améliorer la lisibilité de l'arbre en choisissant le menu Draw, Equal Angle. Dans la fenêtre qui apparaît, vous pouvez augmenter le nombre de DaylightIterations, initialement à 0 (genre de 1 à 10). Cet algorithme d'optimisation du dessin de l'arbre tentera de bouger les branches de l'arbre afin de répartir le vide entre les branches de façon équitable. Concluez encore par Apply et en quittant la fenêtre. Si le dessin ne vous semble pas assez expressif, ce qui est le cas quand par exemple toutes les distances de la matrice sont très grandes (c'était le problème de Jean Véronis ici), vous pouvez choisir d'afficher des longueurs identiques pour toutes les arêtes de l'arbre (les portions de branches comprises entre deux noeuds). Pour cela, ça se passe aussi dans la fenêtre de Draw, EqualAngle, il suffit de décocher la case UseWeights.

Vous obtenez alors (après Apply et fermeture de la fenêtre) le joli arbre suivant :

Et voilà, il ne "reste" plus qu'à interpréter le résultat, et en faire profiter les internautes (en citant www.splitstree.org) ou la communauté scientifique (en citant D. H. Huson and D. Bryant, Application of Phylogenetic Networks in Evolutionary Studies, Mol. Biol. Evol., 23(2):254-267, 2006).

D'autre part, Splitstree recèle d'astuces diverses, donc la lecture du manuel d'utilisation sera profitable à tout anglophone qui souhaite les découvrir.

23 mai 2006

GoogleFight pour l'orthographe

C'est super utile, Google, comme correcteur d'orthographe. Mais attention à ne pas se laisser piéger !

D'accord, c'est pas la faute à Google mais plutôt à l'AFP, mais bon... En tout cas, mieux vaut utiliser GoogleFight que Google pour l'orthographe, il ne faut pas, par exemple, se laisser induire en erreur par les 34 400 000 résultats pour "seperate" et bien écrire "separate".

22 mai 2006

Eurovision et géopolitique

Vous aussi vous êtes persuadé que le système de vote à l'Eurovision favorise les pays d'Europe de l'Est ou les pays nordiques qui ne font rien qu'à mettre en place des magouilles pour tous voter pareil et faire gagner le prestigieux concours à un de leurs copains ?

Et bien il est vrai que la proximité géographique transparaît un peu dans les votes attribués par les pays, comme on le voit dans l'arbre phylogénétique ci-dessous qui rapproche dans un même sous-arbre des pays qui ont voté de façon similaire.



Tous les détails sur cet arbre sur cette page de construction de l'arbre phylogénétique selon la "distance Eurovision 2006".