Archive | Uncategorized RSS for this section

Biométrie: analyse de données pour les sciences biologiques.

*Travail en cours*

Pour éviter d’interpreter les données n’importe comment, les statistiques sont indispensables.

(Tests D à U = 1 variable)

Test par permutation (D)

Ce test a pour but de comparer les moyennes de deux groupes et nous permet de déterminer si (a) la moyenne des deux groupes est identique (variations aléatoires autour d’une même moyenne) ou (b) si les traitements effectués produisent une ou des différences dans la variable mesurée.

Ce test requiert l’équivariance des deux jeux de données.

La statistique-test utilisé est le “D”. On calcule d’abord notre Dobs (observé) ce qui revient à faire la différence des moyennes des deux groupes et par la suite on calcule les autres D en effectuant des permutations ou plutôt un réchantillonnage sans remise en gardant les même effectifs d’échantillons. 1000 ou 10 000 permutations sont suffisantes pour la distribution, il n’est pas nécessaire d’effectuer toutes les permutations possibles. La 1000 ième permutations sera notre Dobs.

On calcule notre Dobs et ensuite en effectue les 999 permutations dans R, à laquelle on ajoute la 1000 donnée qui est notre Dobs calculé au départ. Dobs = moyA-moyB ce qui nous donne notre statistique-test “D”.

La distribution obtenue nous permet de sélectionner le nombre de données supérieures ou égales à la valeur absolue de Dobs et la – la valeur absolue de Dobs. On divise ce nombre de données par le nombre total de Dpermutés ce qui nous donne la probabilité que les valeurs permutées prennent une valeur aussi extrême que le Dobs. Si cette probabilité est supérieure au alpha qui est de 5%, on est obligé d’accepter l’hypothèse nulle (H0). Si elle est inférieure à alpha qui est de 5%, on rejette (H0) et on accepte l’hypothèse contraire.

Dans le cas ou l’on accepte H0, cela veut dire que les moyennes sont égales.

Un petit D nous indique que les traitements ont le même effet sur les patients alors qu’un  D énorme nous indique que les traitements ont des effets différent sur les patients.

 

Comparaison de la variance de deux échantillons indépendants (F)

Cela revient à savoir si ils proviennent de la même population statistique.

Le test requiert plusieurs conditions:

(1) – normalité de chaque population dont provient les échantillons

(2) – variables quantitatives.

Le test de “F” obéit à une loi de Fisher-Snedecor sous H0 lorsque variancepopulation1=variancepopulation2.

C’est le rapport de deux khi carrés qui nous donne la valeur de F.

Sous H0 le rapport des variances des population nous donne 1 ce qui nous laisse le rapport des variances des deux échantillons.

Pour un test bilatéral la plus grande valeur va au nominateur, sinon pour un test unilatéral on laisse la formule tel quel, varianceéchantillon1/varianceéchantillon2.

Si le Fobs est plus petit que le Fcritique, on accepte H0.

Si le Fobs est plus grand que le Fcritique, on refuse H0 et accepte l’hypothèse contraire: les variances de l’échantillon ne sont pas égales, donc ils ne proviennent pas de la même population statistique.

 

Comparaison de la moyenne de deux échantillons indépendants (T)

Ce test nous permet de répondre à la question: si deux échantillons différents par leur moyenne, est-ce que les populations dont ils proviennent différents aussi par leurs moyennes?

Si H0 est vraie, suit distribution de student.

Conditions:

(1) – équivariance

Sous H0: (a) les deux échantillons proviennent de la même population ou (b) de population avec des moyennes identiques.

Sous H1: (a) les deux échantillons proviennent de populations différentes ou (b) de populations avec des moyennes différentes.

On effectue toujours un test de F puisque c’est la seule condition à remplir pour le test de t: c’est à dire l’équivariance.

1 – Test de F (suit loi de Fisher-Snedecor sous H0)

2- Test de t (suit loi de student sous H0)

(a) on utilise les formules nécessaires selon la taille des échantillons.

Deux formules sont disponibles, la première dans le cas ou n1 et n2 sont plus grand que 30 et la deuxième dans le cas où n1 et/ou n2 sont plus petits que 30. La deuxième formules pour les petits échantillons utilise le spd2 (la moyenne pondérée des variances) pour avoir une meilleure approximation de la variance de la population.

Pour la décision statistique, c’est le même raisonnement que pour le test de F.

Si Tobs est plus petit que Tcrit, on accepte H0.

Si Tobs est plus grand que Tcrit, on refuse H0 et on accepte l’hypothèse contraire.

 

Comparaison de la moyenne de deux échantillons appariés (T)

Est utile dans le cas ou l’on veut comparer les même données pour un traitement avant/après. Le test repose sur une différence entre chaque paires d’échantillons appariées.

Conditions:

(1)- variables quantitatives

(2)- distribution normales de di

(3)- indépendance des observations (saufs paires)

cLe test obéit à une loi de student sous H0.

La statistique-test t est égale à la moyennes des différences moins la vrai moyenne des différences, divisée par l’erreur-type, qui est égale à l’écart-type des différences divisé par la racine carré de n, où n est le nombre de paires de données.

Sous H0, la vraie moyenne des différences est égale à 0.

On calcule le t comme d’habitude avec la formule et la décision est prise comme pour le test de T et le test de F: si Tobs est inférieure à Tcrit, on accepte H0 et si Tobs est supérieure à Tcrit, on rejette H0 et accepte l’hypothèse contraire H1 (les moyennes ne sont pas égales).

 

Test non-paramétriques (U)

Ces test ne reposent pas sur les paramètres comme la moyenne, l’écart-type ou la variance etc.

Chaque test paramétrique a son équivalent non paramétrique. 

Utile en tout temps ou lorsque:

(1)- Données quantitatives non-normales (variances mal estimées)

(2)- Données semi-quantitatives

(3)- Tous les cas où les tests paramétriques sont applicables

(4)- Valide même quand n est très petit (2 ou 3).

H0: les deux groupes proviennent de populations population statique ou de deux groupes avec des populations ayants la même médiane.

H0= valeurs bien entremêlées.

H0= les rangs sont uniformément distribués, ce qui veut dire que les données ont la même probabilité de se retrouvées l’une à la suite de l’autre.

H1(bilatéral)= les rangs ne sont pas uniformément distribués.

H1(unilatéral)= probabilité que xi1 soit plus grand que xi2 est plus grande que 0.5. Le premier groupe est décalé vers les grandes valeurs.

H1(unilatéral)= probabilité que xi1 soit plus grand que xi2 est plus petite que 0.5. Le premier groupe est décalé vers les petites valeurs.

Calcul

Il existe différents test de U selon la taille de n1 et n2.

(a)Pour tous les test de U la première étape consiste à mettre les données en ordre croissant et indiquer le groupe de provenance de celle-ci. Le U1 se calcule en additionna le nombre de fois qu’un élément du groupe 2 précède un élément du groupe 1.

(1) Pour n1 et n2 plus petit ou égale à 8, U2=n1n2 – U1. Si les groupes sont séparés, U1= 0 et U2 = n1n2. H0= U1 +- = à U2 +-= à n1n2/2.

ex: n1=3 n2=4 P(U<ou=2)=0.114 (Table de U) au seuil 0.05 on ne peut rejeter H0, car la probabilité est plus grande que 0.05.

(2) Pour n1 et n2 plus petit ou égale à 20, le U1 et U2  on fait l’étape (a) mais on emploi aussi la somme des rangs. La formule est différente.

Le U est le Umin(U1,U2).

Dans la table de U on lit au alpha/2 pour un test bilatéral.

On compare le U min au U trouvé dans la table et si le U est plus grand que le U alpha (crit) on accepte H0.

(3) Pour n1 ou n2 > 20, la distributuion suit une loi normale de moyenne = n1n2/2 et d’écart-type= racine carré n1n2…

Il suffit de calculer l’écart réduit= U- moyenne de U/ écart-type de U. Le U est calculé avec la somme des rangs.

z (écart réduit) ==> table normale centrée réduite N(0(moyenne),1(écart-type)).

 

Comparaisons multiples – ANOVA (ANALYSIS OF VARIANCES)

* Robuste face à déviations raisonnables de l’homoscédasticité ou de la normalité.

*Si forte déviation = Test de Kruskal Wallis.

  • Comparaison de la moyenne de plusieurs groupes indépendants d’observations.

Principe: analyse de la variance intragroupe vs analyse de la variance intergroupe pour comparer moyennes.

Faire tests de T au lieu d’utiliser l’ANOVA, augmente l’erreur de type I (rejeter H0 alors qu’elle est vraie).

Même si on teste la différence de moyenne c’est la variance qui est analysée, on veut déterminer si la variance est trop grande pour être due à des fluctuations aléatoires.

Répond à la question: existe-t-il une variation intergroupe significative par rapport à la variation intragroupe?  ==> rapport de (variance inter/variance intra)= Fobs

Suit une loi de Fisher-Snedecor sous H0 à v1=g-1 (degrés de liberté) et v2= n-g ddl.

(1) Calculer SCE (somme du carré des écarts à la moyenne) pour la variance intragroupe et diviser par n-g ddl.

(2) (A) Calculer le SCI (somme du carré des écarts à la moyenne globale) et multiplier par ni. Diviser ensuite par g-1 ddl. C’est la variance intergroupe.

(B) Diviser variance intergroupe (SCI) par la variance intragroupe (SCE) = Fobs.

H0 vraie= variance inter et intra se ressemblent = proche de 1.

H1 = variance inter au numérateur (toujours)parce que c’est la plus grande valeur si H1 est vraie (donc s’éloigne de 1).

Toujours unilatéral.

Indique seulement si il y a une différence, mais ne dit pas dans quel groupe. Pour le savoir on utilise le test de comparaison multiple avec la statistique-test HSD (Tukey).

 

Comparaison multiples – Tukey HSD (Honest Significant Difference)

  • Permet de déterminer dans quel groupe il y a une différence significative              (où se situe la différence).
  • Plus puissant qu’ANOVA pour valeurs asymétriques ou aberrantes.

statistique test HSD = q *  la racine carré de la variance divisée par n ou n = au nombre d’observations par groupes.

Mêmes conditions que l’ANOVA.

Calcul

(1) Calculer les différences pour chaque paires de moyennes.

(2) Extraire q alpha de la table pour g groupes et n-g ddl.

(3) Calculer valeur de HSD.

(4) Si la valeur absolue de la différence d’une paire de moyenne est supérieure à la statistique HSD, la moyenne est différente au seuil alpha.

Test de Kuskal Wallis – (Test non-paramétrique de l’ANOVA)

*Extension du test de U à g groupes.

 Détermine si les rangs moyens des éléments des g groupes (Yg) sont différents.

(1) Classe valeurs en ordre croissant.

(2) rang ex aequo = rangs moyens comme avant.

(3) Valeur observée (statistique-test H) est calculée avec la formule.

 

Test de Levene – Test d’homogénéité des variances (Homoscédasticité)

H0: les dispersions des groupes sont égales.

H1: les dispersions des groupes ne sont pas toutes égales.

Conditions:

(1) Normalité des g distributions.

(2) Indépendance des observations.

 

Test du Khi2

 

Algebra – Binomials and Polymials – Basics

Image

Monomial

Here is a quick tutorial on how to factor a Binomial and a Polynomial.

The first thing to do is to find a common term within the equation and it depend on what kind of equation you have, for exemple let’s start with an easy Binomial :

49x²-9y² 

here to simplify we can transform 49 to (7²) because (7×7) equal (49) and in order to factorize this Binomial we need at least to perfectly divide it in this case,  because there is no common factor between them.

And we can do the same for 9 which is (3²).

Now we have (7²x² – 3²y²) and what we gonna do here is to split it in two equal Binomial :

= (7x + 3y) x (7x – 3y)

Let’s see if we have the correct anwser :

  (7x + 3y) x (7x – 3y) =

= (49x² – 21xy + 21xy – 9y²)  and   (-21xy + 21xy = 0)

= (49x² – 9y²)

So the anwser is (7x + 3y) x (7x – 3y).

The reason why we could split it in two is because of the negative sign ”-”. 

If we had (49x² ”+” 9y²) it would be another equation.

(49x² ”+” 9y²) =

= (7²x² + 3²y²) 

= (7x + 3y) (7x + 3y) =

= (49x² + 21xy + 21xy + 9y²)

= (49x² +42xy + 9y²). Voila.

 

Polynomial

Now let’s try with a Polynomial :

(-3x²yz² -6xyz + 4x³yz² + 8x²yz) =

-3xyz(xz + 2) 4x²yz(xz + 2) =

(-3xyz + 4x²yz) (xz +2) =

= xyz(4x – 3) (xz + 2). Voila.

So that’s it for this little tutorial, next time i’ll do something a little bit more complicated with addition, substraction, division and multiplication.

Hope you liked it and if a made any error, nobody gonna die, just tell me :). 

 

Jordan Landao