More

    Comprendre le test T dans R : guide pratique avec l’exemple Titanic

    France

    Ce guide explique, pas à pas et avec l’exemple des passagers du Titanic, comment réaliser et interpréter un test T en R ; il montre aussi une approche par bootstrap pour mieux comprendre les résultats du test T R Titanic.

    Rappel des données et préparation (passagers du Titanic)

    Les données utilisées proviennent du package R titanic, ensemble titanic_train. Après suppression des valeurs manquantes pour l’âge, l’échantillon contient 712 observations : 261 femmes et 453 hommes.

    Les statistiques descriptives par sexe sont :

    • Femmes — moyenne d’âge 27,9 ans, écart type 14,1, n = 261.
    • Hommes — moyenne d’âge 30,7 ans, écart type 14,7, n = 453.

    La différence observée entre les moyennes est de 2,8 ans (hommes moins âgés en moyenne).

    Code R utilisé pour la préparation : library(titanic); data(‘titanic_train’); df <- titanic_train %>% select(Sex, Age) %>% na.omit().

    Interpréter un test T R Titanic : exécution et résultats

    Le test T (Student) permet de vérifier si la différence de moyenne entre deux groupes est statistiquement significative ou s’explique par le hasard. Dans notre cas, la question est : l’âge moyen est‑il le même chez les hommes et chez les femmes à bord du Titanic ?

    En R, le test est réalisé simplement avec la fonction t.test et la formule : t.test(Age ~ Sex, data = df). Cette utilisation suppose l’indépendance des deux échantillons et une distribution approchée de l’âge normale, ce que le graphique de densité laissait envisager.

    Les principaux résultats du test sont :

    • p‑value = 0,0118 (soit 1,18 %).
    • intervalle de confiance à 95 % approximativement entre -5 et -0,62 (différence des moyennes).

    Interprétation factuelle : la p‑value de 0,0118 signifie que, si l’hypothèse nulle (égalité des moyennes) était vraie, il y aurait seulement 1,18 % de chances d’observer une différence aussi grande ou plus grande que celle constatée. Étant donné que cette p‑value est inférieure à 0,05, on rejette l’hypothèse nulle au niveau de confiance 95 % ; en revanche, au niveau de confiance 99 % (seuil 0,01), on ne la rejette pas.

    L’intervalle de confiance ne contenant pas 0 (entre -5 et -0,62) corrobore le rejet de l’hypothèse nulle au seuil 5 % et indique que la différence moyenne observée est négative dans l’orientation retenue (hommes minus femmes).

    Bootstrap : reproduire la logique du test sans supposer la normalité

    Le bootstrap illustre la logique du test T en générant une distribution d’échantillonnage des différences de moyennes à partir d’un seul échantillon. L’idée repose sur le théorème central limite : la distribution des moyennes d’échantillons suivra une loi approchée normale, dont l’écart type est l’erreur standard.

    Procédure suivie :

    1. On crée une version de l’échantillon sous l’hypothèse nulle en recentrant les âges des hommes : on soustrait la différence observée (2,81) à l’âge de chaque homme, de sorte que la différence des moyennes soit 0 dans cet échantillon nulle (df_null).
    2. On définit une fonction diff_means qui tire un échantillon bootstrap (taille n = 712 avec remise), calcule les moyennes par sexe et retourne la différence (moyenne hommes − moyenne femmes).
    3. On répète l’opération 1 000 fois avec replicate(1000, diff_means(df_null)) et on étudie la distribution des différences obtenues.

    Résultats numériques observés :

    • la moyenne de la distribution d’échantillonnage est approximativement 0, comme attendu sous l’hypothèse nulle ;
    • l’écart type de cette distribution est d’environ 1,1 ;
    • parmi les 1 000 répétitions, 9 échantillons ont produit une différence ≥ 2,81 ou ≤ −2,81, soit 0,9 % des cas.

    Cette proportion (0,9 %) est très proche de la p‑value calculée par t.test, ce qui renforce l’interprétation précédente : il est improbable d’observer la différence constatée si les moyennes étaient égales. Le bootstrap présente l’avantage de ne pas supposer la normalité de la distribution de l’âge.

    Points pratiques et commandes clés

    Commandes R essentielles mentionnées dans l’article :

    • préparation des données : df <- titanic_train %>% select(Sex, Age) %>% na.omit() ;
    • test T : t.test(Age ~ Sex, data = df) ;
    • création de l’échantillon nul : df_null <- df %>% mutate(Age = ifelse(Sex == « male », Age – 2.81, Age)) ;
    • bootstrap : définition de la fonction diff_means puis diffs <- replicate(1000, diff_means(df_null)) et calcul des proportions extrêmes.

    Pour toute question méthodologique ou remarque sur l’implémentation, signalez‑la directement sur le billet original de l’auteur.

    Test T R Titanic | Statistiques | Test T | R | Titanic | Analyse De Données | France
    source:https://www.r-bloggers.com/2025/09/t-test-in-r/

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Washington informe Israël de l’échec des discussions avec l’Iran

    Washington a informé Israël de l’impasse des discussions avec l’Iran, alors que de nouvelles frappes et des pressions sur l’économie iranienne sont étudiées.

    Israël frappe 44 zones du sud du Liban, Hezbollah riposte

    Israël a frappé 44 zones du sud du Liban, causant 10 morts. Le Hezbollah a riposté avec 60 attaques contre des cibles israéliennes.

    Trump menace l’Iran : frappes massives annoncées dans 2-3 semaines

    Trump menace des frappes « très puissantes » contre l'Iran dans 2-3 semaines, visant à détruire ses capacités militaires et nucléaires. Pays concernés : USA, Iran.

    Abu Obeida salue les mobilisations syriennes pour al‑Aqsa et les détenus

    Abu Obeida salue les manifestations en Syrie en soutien à al‑Aqsa et aux prisonniers palestiniens. Pays concernés : Syrie, Palestine, Israël.

    Un juge suspend la construction du ballroom de 400 M$ de Trump

    Un juge fédéral bloque temporairement le projet de ballroom à 400 M$ de Donald Trump à la Maison-Blanche en attendant l'autorisation du Congrès.

    Trump veut partir en 2-3 semaines et défie ses alliés sur le pétrole

    Trump affirme que les États-Unis pourraient mettre fin à la guerre contre l'Iran en 2-3 semaines et invite les alliés à se procurer leur propre pétrole.

    Gâteau au citron sans gluten, recette végétarienne

    Envie d'un gâteau au citron sans gluten, recette végétarienne, ultra moelleux grâce à une purée de pommes de terre?

    Interceptions au Koweït, Arabie saoudite et EAU; attaques en Irak

    Défenses aériennes ont intercepté missiles et drones au Koweït, Arabie saoudite et EAU; incidents et frappes signalés en Irak et Bahreïn.

    à Lire

    Categories