cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
Choose Language Hide Translation Bar
Syrine
Level I

Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Je voulais savoir s'il y a une différence significative entre des échantillons en comparant des valeurs mesurées, normalement je devais utiliser le test de student ou ANOVA c'est ça ?
2 ACCEPTED SOLUTIONS

Accepted Solutions
Victor_G
Super User

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Bonsoir @Syrine,

 

Ok, je pense mieux comprendre votre point d'interrogation avec le R².

Il faut garder à l'esprit que le R² représente le pourcentage de variabilité expliqué par le modèle : ici, le pourcentage de variabilité qui est expliqué uniquement par le facteur "Nature" (et analysé séparément aux deux temps). Il permet d'interpréter les résultats de l'analyse mais ce n'est pas le seul indicateur.

 

On peut regarder dans votre analyse deux indicateurs (et essayer de les interpréter):

  • R² dans l'analyse Tukey-Kramer de la force en fonction de la nature : Pour le temps 1, 59% de la variabilité des résultats de force s'expliquent par le facteur/groupe "Nature". Expliquer plus de la moitié de la variabilité d'une réponse avec un seul facteur me semble un résultat important et/ou intéressant. Pour le temps 2, les résultats sont moins francs : 28% de la variabilité de ma réponse Force s'explique par la nature des échantillons. A voir si cette tendance est statistiquement significative ou pas.
  • Analyse de variance : Dans le cas du temps 1, on voit que la p-value de l'analyse Tukey-Kramer est inférieure au seuil de significativité fixé à 0,05 : on a donc une analyse statistiquement significative. En prenant en compte le résultat du R², on peut donc se dire qu'il y a une différence marquée (variabilité dans les réponses expliquée à 59% par la nature des échantillons) et statistiquement significative au temps 1 pour les résultats de force entre le groupe/nature "avec glycérol" et les deux autres groupes. Dans le cas du temps 2, on voit que la p-value de l'analyse Tukey-Kramer est supérieure au seuil de significativité fixé à 0,05 : l'analyse est donc non statistiquement significative pour le temps 2. Il y a peut-être une tendance visible graphiquement, mais les indices (R² et p-value) ne sont pas assez concluants quant à la significativité et l'importance de la différence entre groupes.

 

J'espère que cette réponse vous permettra d'y voir plus clair,

Victor GUILLER
Scientific Expertise Engineer
L'Oréal - Data & Analytics

View solution in original post

Victor_G
Super User

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Pour le T2, il n'y a en effet pas assez d'évidences pour dire qu'il y a une différence statistique significative entre groupes.
C'est votre conclusion avec ces données et résultats mesurés maintenant, mais cette conclusion peut évoluer en fonction du nombre d'échantillons testés et de mesures réalisés (si vous en ajoutez).
C'est pour cette raison (meilleure confiance dans les résultats et rigueur méthodologique) qu'il est préférable de définir en amont la différence minimale de valeur de réponse qu'on souhaite détecter entre groupes et fixer le seuil de significativité afin de calculer le nombre d'échantillons requis par groupe (analyse de puissance).
Sinon, on risque de manipuler les données et biaiser les résultats en continuant à collecter et mesurer des échantillons jusqu'à ce que "la conclusion nous plaise".
Une petite vidéo (en anglais) explique très bien cet aspect : https://youtu.be/VX_M3tIyiYk
Victor GUILLER
Scientific Expertise Engineer
L'Oréal - Data & Analytics

View solution in original post

20 REPLIES 20
Victor_G
Super User

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Bonjour @Syrine,

 

Il y a plusieurs aspects à prendre en compte pour le choix d'un test statistique :

 

  • Les hypothèses liées au test paramétrique (Student, Tukey-Kramer, ...) sont elles respectées ? (Si non, utilisation de tests non paramétriques) :
    1. Les données mesurées sont indépendantes (sinon il faut réaliser des tests pour échantillons appariés),
    2. Les données mesurées sont normalement distribuées (sinon choix de tests non paramétriques),
    3. Les groupes comparés ont une variance similaire (sinon choix de tests prenant en compte une différence de variance entre groupes).

 

  • Combien d'échantillons ou de groupes sont comparés ? : Si le nombre de groupes est supérieur à 2, on préfèrera des tests dont le risque alpha est ajusté par rapport au nombre de comparaisons à effectuer, ce qui permet de réduire les erreurs de type I (correspondant ici à "trouver une différence significative entre des échantillons alors qu'il n'y en a pas"). Si on a seulement deux groupes/échantillons, le test de Student en test paramétrique ou le test de Mann-Whitney/Wilcoxon en test non-paramétrique devrait convenir.

 

Globalement, ca donne cet organigramme de décision : 

Victor_G_0-1674568374474.png

A noter, le comité de pilotage francophone JMP a réalisé un webinar sur ce sujet dans la série des "Trucs et Astuces" : Video JMP Addict: Atelier trucs et astuces Session spéciale Workflow analyse de ... - JMP User Commu...

 

Enfin, si vous avez un jeu de données anonymisé ou un exemple sur lequel baser votre cas, des réponses plus précises et adaptées pourront très certainement vous être fournies.

En espérant que cette première réponse vous aide,

 

Victor GUILLER
Scientific Expertise Engineer
L'Oréal - Data & Analytics
Syrine
Level I

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Merci pour votre réponse,
En fait moi j'ai deux échantillons un echantillon de reference et un autre échantillon , ou je mesure à chaque fois des paramètres instrumentaux, et pour chaque mesure je fais trois répétitions
Le but est de savoir si l'échantillon ressemble ou pas à l'échantillon de référence.

J'ai voulu vous partager une capture du jeu de données mais j'ai pas trouvé l'option ajout image , si vous savez comment je dois faire n'hésitez pas à me le dire
Victor_G
Super User

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Bonsoir @Syrine,

 

Pour partager un fichier, vous pouvez glisser-déposer le fichier depuis votre ordi jusqu'à la fenêtre de tchat où vous répondez ou utiliser le bouton situé juste en dessous de la fenêtre de réponse (voir image ci-dessous).
Un copier-coller (CTRL+C sur le fichier/image à partager, CTRL+V sur la fenêtre de discussion JMP Community) fonctionne également.

Community_sharing-files.png

Vous pouvez si possible partager la table de données JMP (plutôt qu'une image), ca permettra directement d'avoir les données et de pouvoir vous la rendre complétée avec des scripts pour les analyses effectuées.

 

Sur votre sujet, je ne suis pas sûr de comprendre votre objectif :

  • Cherchez-vous à montrer l'équivalence entre un échantillon de référence et l'échantillon testé, où l'équivalence consiste à se trouver centré sur la valeur de référence et dans un intervalle de valeurs considéré comme pratiquement équivalent à l'échantillon de référence ?
  • Cherchez-vous à montrer qu'il existe bien une différence statistiquement significative entre l'échantillon de référence et l'échantillon testé ?

L'objectif va permettre de préciser l'hypothèse nulle et alternative ainsi que les choix possibles de test.

Est-ce que chaque paramètre instrumental doit être considéré indépendamment (et un test doit être réalisé pour chaque) ? Ou est-ce que les données peuvent être agrégées ?

 

Bonne soirée,

 

Victor GUILLER
Scientific Expertise Engineer
L'Oréal - Data & Analytics
Syrine
Level I

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Bonsoir, 

En fait, le but est d'avoir un produit avec des propriétés proche de produit de référence. je voulais faire une comparaison par test de student / tukey pour savoir s'il y a une différence significative ou pas ( l'echantion de réference est avec gly et les deux autres sont les échantillons à tester ) . 

Je suis désolée mais je n'ai pas compris ce que vous voulez dire par équivalence, j'ai vu cette option mais je ne sais pas en vrai c'est quoi la différence entre test d'equivalence et comparaison de moyenne par student par exemple. 

Les mesures sont faites de manière séparé ( données indépendantes ) 

 

Je vous communique les tables de données que j'ai essayé de les mettre en forme pour etre bien analysé par jmp  et lancé un simple test de student / tukey ( selon le nombre de variables 2 ou plus ) 

 Et merci 

Victor_G
Super User

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Bonjour Syrine,

 

Dans vos différentes tables, le nombre d'observations est assez faible, donc des tests non-paramétriques sont recommandés, car ils ne reposent pas sur des hypothèses de distributions normales de vos réponses. En effet, étant donné que le nombre d'observations est faible voire très faible, nous n'avons aucune certitude sur la représentativité des observations mesurées, et qu'en réalisant d'autres tests, ces derniers se retrouveraient autours des premières valeurs trouvées en suivant une distribution normale. A noter que la plupart des conclusions/interprétations ci-dessous sont déjà perceptibles graphiquement.

Je suis parti du principe que vous vouliez détecter si vous avez une différence significative entre vos groupes de nature chimique différente. Après avoir regardé vos différentes tables, voici quelques pistes et suggestions pour l'analyse :

 

  • Table "Différence volume" : Pour cette table, vous avez 5 observations pour chaque groupe (3 groupes).
    En utilisant la plateforme "Ajuster Y en fonction de X", vous pouvez tester que la variance entre chaque groupe est similaire (triangle rouge, option "Variances inégales"). Ici, pas de p-value < 0,05 donc pas de raison de penser qu'il y ait une différence statistiquement significative d'une différence de variance entre les 3 groupes.
    On peut continuer l'analyse et tester via le test non-paramétrique Steel-Dwass (triangle rouge, "Non paramétrique", "Comparaisons multiples non paramétriques", "Steel-Dwass toutes les paires") qui protège contre le risque d'erreur de type I en cas de comparaisons multiples : 
     
    Steel-dwass.png

    Aucune différence statistiquement significative n'est détectée, et on obtient le même résultat avec un test paramétrique Tukey-Kramer (qui lui aussi protège contre le risque d'erreur de type I en cas de comparaisons multiples, contrairement au test (paramétrique) de Student) que l'on peut visualiser facilement : 

    Tukey-Kramer.jpg

    Ici le nombre d'observations est réduit, mais en utilisant la plateforme Distributions et en affichant le graphique des quantiles normaux, on peut voir qu'il n'y a pas de déviation importante par rapport à la droite de Henry, donc on peut supposer une quasi-normalité des données, suffisante pour utiliser un test paramétrique comme Tukey-Kramer et comparer les résultats des deux tests (Steel-Dwass non paramétrique avec Tukey-Kramer paramétrique).

Conclusion sur ce jeu de données : Malgré un nombre d'observations faibles, il semble ne pas y avoir de différence statistiquement significative entre les groupes de nature chimique différentes sur la réponse volume. Cette conclusion doit être nuancée car il n'y a aucune certitude que les observations soient représentatives de futurs résultats selon la nature chimique, donc c'est une conclusion à "l'instant présent" avec les données disponibles.

 

  • Table "différence aw et HR" : Pour cette table, vous avez 3 observations pour chaque groupe (2 groupes). L'analyse des variances comme vu précédemment ne va pas donner grand chose vu le faible nombre de points (pas de différence significative entre les variances des deux groupes). Le jeu de données est extrêmement petit, donc on ne partira que sur des tests non-paramétriques, et comme il n'y a que deux groupes, celà permet de réaliser des tests exacts (triangle rouge, Non paramétrique, Test Exact). Par défaut, j'ai réalisé le test exact de Wilcoxon, mais vous pouvez tester les autres tests exacts non-paramétriques, vous verrez qu'ils s'accordent tous :
    • Pour aw en fonction de Nature : Les tests ressortent avec une p-value égale à 0,05. Cette différence est déjà visible graphiquement, donc pas de surprises sur ce diagnostic. Il semblerait donc bien y avoir une différence statistiquement significative.
    • Pour HR en fonction de Nature : Les tests ressortent tous avec une p-value supérieure à 0,05 ce qui n'est pas étonnant vu la répartition des points, visible graphiquement.

 

Pour la dernière table, "différence retroextrusion" je ne suis pas entièrement sûr de quelle est la réponse (premier t de repos ?): le groupe semble être le même que précédemment (avec la colonne 4), mais que représente la colonne "temps", un autre groupe possible pour étudier des différences selon le temps 1 ou 2 ou une réponse ?

Avec la démarche vue précédemment sur les deux tables (que je vous attache ici avec les scripts des analyses effctuées), je pense que vous aurez des pistes pour mener à bien votre analyse sur cette dernière table.

Victor GUILLER
Scientific Expertise Engineer
L'Oréal - Data & Analytics
Syrine
Level I

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Bonsoir, 

Merci pour votre réponse. 

Afin d'avoir des données plus représentatives j'ai effectué d'autres répétitions pour les mêmes groupes. Je demande si je dois toujours vérifier la distribution des valeurs pour appliquer le test de Tukey ou je peux l'appliquer directement ? 

Pour la table de différence rétro extrusion, je m'excuse ce n'était pas trop clair, en fait la colonne du temps ne représente pas un temps ce sont des valeurs de force mesurées à deux temps différents que je les ai identifié dans la colonne 4 par 1 et 2.

 

 

Victor_G
Super User

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Bonsoir @Syrine,

Le test de Tukey-Kramer est un test paramétrique, donc reposant sur l'hypothèse de la normalité de distribution de la réponse, l'égalité des variances entre groupes, et l'indépendance des données mesurées (ce dernier point étant largement influencé par la méthode de mesure/collecte, et semble être respecté dans votre processus de mesure).
Comme vu précédemment, vous devez donc vérifier la normalité de votre réponse (avec le graphique des quantités normaux) et l'égalité des variances (tests disponibles dans l'option "Variances inégales" dans le menu du triangle rouge), et en cas de (quasi)normalité et de variances équivalentes, vous pouvez effectivement l'utiliser.
Dans le cas contraire ou en cas de doute, vous pouvez utiliser le test non-paramétrique de Steel-Dwass (vu précédemment), qui ne repose pas sur une hypothèse de normalité de la réponse.

D'accord pour cet éclaircissement, mais est-ce une information à prendre en compte dans le test que vous souhaitez ? Par exemple, réaliser le test pour chaque valeur de force (pour vérifier que la différence ou l'absence de différence ne dépend pas de la force), ou souhaitez-vous également tester la différence de réponse selon la force appliquée ?
Victor GUILLER
Scientific Expertise Engineer
L'Oréal - Data & Analytics
Syrine
Level I

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Bonjour,

Effectivement pour tester la différence de force appliquée. 

J'ai une question par rapport au test d'égalité de variance, par ce que c'est la première fois que je l'utilise, donc pour analyser les résultats de ce test, je regarde la colonne de p-value ( il y en a plusieurs ), et s'il y a seulement une seule valeur < 0,05 je dirait qu'il y a une différence significative. est ce que c'est ça le principe? 

Victor_G
Super User

Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs échantillons ?

Bonjour @Syrine,

 

Oui, il y a plusieurs p-value car plusieurs tests sont effectués pour tester l'équivalence des variances. Pour plus d'infos sur ces tests, vous pouvez consulter l'aide JMP : Unequal Variances Reports (jmp.com) et pour le détail des calculs pour chaque test : Statistical Details for Tests That the Variances Are Equal (jmp.com).

 

Il y a généralement quelques différences entre les résultats de ces tests, mais dans la plupart des cas, les résultats de p-value concordent bien et sont plutôt équivalents. Du coup, je conseillerai de regarder l'ensemble des 5 tests effectués (et leurs p-value associées) :

  • Si tous les tests (ou la majorité) ont une p-value > 0,05 alors on peut considérer que les groupes ont des variances semblables.
  • Si tous les tests (ou la majorité) ont une p-value < 0,05 alors on peut considérer que les groupes ont des variances différentes. Le test de Welch pour tester la significativité d'une différence entre deux groupes est alors recommandé, et automatiquement calculé par JMP. Ce test est paramétrique, non-corrigé pour les comparaisons multiples, donc les distributions doivent être vérifiées (et être quasi-normalement distribuées) et la comparaison ne porter que sur deux groupes. S'il y a plus de deux groupes et/ou non-respect de la quasi-normalité (ou un nombre d'observations très faible), il est plutôt préférable de s'orienter vers des tests de comparaison multiples non-paramétriques, tels que Steel-Dwass.
  • S'il n'y a pas de réel consensus entre les tests, ou que les p-value sont proches de 0,05 (certaines en-dessous, d'autres au-dessus), il peut être intéressant de comparer le résultat du test de Welch avec le résultat d'un autre test assumant l'égalité des variances (comme le test de Student pour deux groupes ou Tukey-Kramer pour 3 groupes et plus), pour voir si la conclusion diffère. 

 

Je vous remets le lien du logigramme de mon premier message pour vous permettre de savoir dans quel ordre tester les hypothèses et quels sont les tests associés : Re: Comment savoir s'il y a une difference significative entre deux ou plusieurs... - JMP User Commu...

En espérant que cette réponse vous aide à y voir plus clair,

Bon dimanche,

Victor GUILLER
Scientific Expertise Engineer
L'Oréal - Data & Analytics