statistics

ANalysis Of VAriance

L’analyse de la variance consiste à trouver une différence de valeur moyenne entre différents groupes de mesures, en s’appuyant sur la mesure de variance. Si tous les groupes proviennent de la même population : leur moyenne doit être raisonnablement identique (compte tenu de la dispersion de la population), leur dispersion aussi, et si l’on mélange toutes les mesures dans un seul groupe, sa dispersion doit être identique à la dispersion de chaque groupe.

Experimentation

L’expérimentation suit une démarche scientifique illustrée ci-dessous. La statistique est utile pour valider les mesures effectuées, mais la finalité de toute expérience est ses résultats et son interprétation. En biologie comme dans la plupart des domaines scientifiques, on souhaite caractériser ou comparer des populations, autrement dit l’ensemble des sujets d’un groupe constitué d’un nombre élevé, parfois infini, de sujets. Mais, sur le plan pratique, le biologiste ne peut étudier qu’un échantillon, autrement dit un nombre réduit d’individus de chaque population.

Intro to False Discovery Rate

En biologie, l’expérimentateur a souvent un jeu de mesures moyen à grand (100 à 100k lignes, plusieurs colonnes). C’est une matrice de mesures obtenus sur des individus pour un ensemble de paramètres cliniques ou biologiques. Les lignes de cette matrice sont les variables observées : gènes, protéines, pourcentages de types cellulaires… Les colonnes sont les individus. Les individus forment des groupes ayant des caractéristiques différentes : réponse à un médicament, rechute… L’expérimentateur cherche parmi les marqueurs (ie les variables/lignes) ceux qui sont associés au regroupement ou plus généralement à la réponse des individus.

Logiciels Statistiques

Il existe de nombreux logiciels pour réaliser des calculs statistiques et pas un bon nombre sont gratuits. Cependant, assimiler l’interface graphique de chacun peut prendre du temps. Les logiciels que je retiens proposent plusieurs types d’analyse, ce qui rentabilise l’effort d’apprentissage, disposent d’une documentation et sont mis à jour régulièrement. Quelque soit votre choix, regardez vos données avant de les analyser aveuglement et ne bâtissez pas votre interprétation que sur la p-value.