More

    Comprendre le test T dans R : guide pratique avec l’exemple Titanic

    France

    Ce guide explique, pas à pas et avec l’exemple des passagers du Titanic, comment réaliser et interpréter un test T en R ; il montre aussi une approche par bootstrap pour mieux comprendre les résultats du test T R Titanic.

    Rappel des données et préparation (passagers du Titanic)

    Les données utilisées proviennent du package R titanic, ensemble titanic_train. Après suppression des valeurs manquantes pour l’âge, l’échantillon contient 712 observations : 261 femmes et 453 hommes.

    Les statistiques descriptives par sexe sont :

    • Femmes — moyenne d’âge 27,9 ans, écart type 14,1, n = 261.
    • Hommes — moyenne d’âge 30,7 ans, écart type 14,7, n = 453.

    La différence observée entre les moyennes est de 2,8 ans (hommes moins âgés en moyenne).

    Code R utilisé pour la préparation : library(titanic); data(‘titanic_train’); df <- titanic_train %>% select(Sex, Age) %>% na.omit().

    Interpréter un test T R Titanic : exécution et résultats

    Le test T (Student) permet de vérifier si la différence de moyenne entre deux groupes est statistiquement significative ou s’explique par le hasard. Dans notre cas, la question est : l’âge moyen est‑il le même chez les hommes et chez les femmes à bord du Titanic ?

    En R, le test est réalisé simplement avec la fonction t.test et la formule : t.test(Age ~ Sex, data = df). Cette utilisation suppose l’indépendance des deux échantillons et une distribution approchée de l’âge normale, ce que le graphique de densité laissait envisager.

    Les principaux résultats du test sont :

    • p‑value = 0,0118 (soit 1,18 %).
    • intervalle de confiance à 95 % approximativement entre -5 et -0,62 (différence des moyennes).

    Interprétation factuelle : la p‑value de 0,0118 signifie que, si l’hypothèse nulle (égalité des moyennes) était vraie, il y aurait seulement 1,18 % de chances d’observer une différence aussi grande ou plus grande que celle constatée. Étant donné que cette p‑value est inférieure à 0,05, on rejette l’hypothèse nulle au niveau de confiance 95 % ; en revanche, au niveau de confiance 99 % (seuil 0,01), on ne la rejette pas.

    L’intervalle de confiance ne contenant pas 0 (entre -5 et -0,62) corrobore le rejet de l’hypothèse nulle au seuil 5 % et indique que la différence moyenne observée est négative dans l’orientation retenue (hommes minus femmes).

    Bootstrap : reproduire la logique du test sans supposer la normalité

    Le bootstrap illustre la logique du test T en générant une distribution d’échantillonnage des différences de moyennes à partir d’un seul échantillon. L’idée repose sur le théorème central limite : la distribution des moyennes d’échantillons suivra une loi approchée normale, dont l’écart type est l’erreur standard.

    Procédure suivie :

    1. On crée une version de l’échantillon sous l’hypothèse nulle en recentrant les âges des hommes : on soustrait la différence observée (2,81) à l’âge de chaque homme, de sorte que la différence des moyennes soit 0 dans cet échantillon nulle (df_null).
    2. On définit une fonction diff_means qui tire un échantillon bootstrap (taille n = 712 avec remise), calcule les moyennes par sexe et retourne la différence (moyenne hommes − moyenne femmes).
    3. On répète l’opération 1 000 fois avec replicate(1000, diff_means(df_null)) et on étudie la distribution des différences obtenues.

    Résultats numériques observés :

    • la moyenne de la distribution d’échantillonnage est approximativement 0, comme attendu sous l’hypothèse nulle ;
    • l’écart type de cette distribution est d’environ 1,1 ;
    • parmi les 1 000 répétitions, 9 échantillons ont produit une différence ≥ 2,81 ou ≤ −2,81, soit 0,9 % des cas.

    Cette proportion (0,9 %) est très proche de la p‑value calculée par t.test, ce qui renforce l’interprétation précédente : il est improbable d’observer la différence constatée si les moyennes étaient égales. Le bootstrap présente l’avantage de ne pas supposer la normalité de la distribution de l’âge.

    Points pratiques et commandes clés

    Commandes R essentielles mentionnées dans l’article :

    • préparation des données : df <- titanic_train %>% select(Sex, Age) %>% na.omit() ;
    • test T : t.test(Age ~ Sex, data = df) ;
    • création de l’échantillon nul : df_null <- df %>% mutate(Age = ifelse(Sex == « male », Age – 2.81, Age)) ;
    • bootstrap : définition de la fonction diff_means puis diffs <- replicate(1000, diff_means(df_null)) et calcul des proportions extrêmes.

    Pour toute question méthodologique ou remarque sur l’implémentation, signalez‑la directement sur le billet original de l’auteur.

    Test T R Titanic | Statistiques | Test T | R | Titanic | Analyse De Données | France
    source:https://www.r-bloggers.com/2025/09/t-test-in-r/

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Trump et sa famille immunisés contre les audits fiscaux aux États-Unis

    Donald Trump, sa famille et ses entreprises obtiennent l'immunité contre les audits fiscaux en pleine polémique aux États-Unis.

    Bangladesh bat le Pakistan et remporte une série Test historique

    Bangladesh bat le Pakistan de 78 runs à Sylhet et remporte une série Test historique à domicile grâce à Taijul Islam.

    Xi Jinping et Vladimir Poutine discutent à Beijing

    Xi Jinping et Vladimir Poutine tiennent des discussions à Beijing sur la Chine, la Russie, l’Ukraine et le Moyen-Orient.

    L’ONU révise à la baisse la croissance mondiale face à la crise au Moyen-Orient

    L’ONU abaisse ses prévisions de croissance mondiale à 2,5 % en 2026, citant la crise au Moyen-Orient et la hausse des prix de l’énergie.

    Xi Jinping reçoit Vladimir Poutine à Pékin: ce que révèle ce sommet sur l’axe Chine-Russie

    Le sommet de Pékin entre Xi Jinping et Vladimir Poutine confirme la solidité d’un partenariat central pour l’Ukraine, l’énergie et l’équilibre géopolitique mondial.

    Kentucky : Thomas Massie battu en primaire, Donald Trump impose son candidat

    Thomas Massie, élu républicain du Kentucky, a perdu sa primaire face à Ed Gallrein, candidat soutenu par Donald Trump, dans une course très coûteuse et symbolique.

    Hantavirus : pourquoi les autorités ne parlent pas d’un « nouveau Covid » et quels symptômes doivent vraiment alerter

    Le risque pour le grand public reste faible, mais le hantavirus peut être grave après exposition réelle. Voici ce que disent l’OMS et le CDC sur les symptômes, la transmission et la prévention.

    Le Sénat américain freine Trump sur la guerre contre l’Iran

    Le Sénat américain avance une résolution pour limiter les pouvoirs de guerre de Trump contre l’Iran, dans un rare revers présidentiel.

    à Lire

    Categories