Une approche statistique de base pour l'analyse des données quantitatives
Les modèles de régression linéaire sont utilisés pour montrer ou prédire la relation entre deux variables ou facteurs . Le facteur qui est prédit (le facteur pour lequel l'équation résout ) est appelé le variable dépendante. Les facteurs qui sont utilisés pour prédire la valeur de la variable dépendante sont appelés les variables indépendantes.
Les bonnes données ne disent pas toujours l'histoire complète. L'analyse de régression est couramment utilisée dans la recherche car elle établit qu'il existe une corrélation entre les variables.
Mais la corrélation n'est pas la même chose que la causalité . Même une ligne dans une régression linéaire simple qui correspond bien aux points de données peut ne pas dire quelque chose de définitif sur une relation de cause à effet.
En régression linéaire simple, chaque observation consiste en deux valeurs. Une valeur est pour la variable dépendante et une valeur est pour la variable indépendante.
- Analyse de régression linéaire simple La forme la plus simple d'une analyse de régression utilise une variable dépendante et une variable indépendante. Dans ce modèle simple , une droite se rapproche de la relation entre la variable dépendante et la variable indépendante.
- Analyse de régression multiple Lorsque deux ou plusieurs variables indépendantes sont utilisées dans l'analyse de régression, le modèle n'est plus un simple modèle linéaire.
Modèle de régression linéaire simple
Le modèle de régression linéaire simple est représenté comme suit: y = ( β 0 + β 1 + Ε
Par convention mathématique, les deux facteurs impliqués dans une analyse de régression linéaire simple sont désignés par x et y .
L'équation qui décrit comment y est lié à x est connue sous le nom de modèle de régression . Le modèle de régression linéaire contient également un terme d'erreur représenté par Ε ou la lettre grecque epsilon. Le terme d'erreur est utilisé pour rendre compte de la variabilité de y qui ne peut pas être expliquée par la relation linéaire entre x et y .
Il y a aussi des paramètres qui représentent la population étudiée. Ces paramètres du modèle sont représentés par ( β 0+ β 1 x ).
Modèle de régression linéaire simple
L'équation de régression linéaire simple est représentée comme suit : Ε ( y ) = ( β 0 + β 1 x ).
L'équation de régression linéaire simple est représentée par une ligne droite.
( β 0 est l'ordonnée à l'origine de la droite de régression.
β 1 est la pente.
Ε ( y ) est la valeur moyenne ou attendue de y pour une valeur donnée de x .
Une ligne de régression peut montrer une relation linéaire positive, une relation linéaire négative ou aucune relation. Si la droite graphique dans une régression linéaire simple est plate (non inclinée), il n'y a pas de relation entre les deux variables. Si la droite de régression descend vers le haut avec l'extrémité inférieure de la ligne à l'ordonnée (axe) du graphique, et l'extrémité supérieure de la ligne vers le haut dans le champ graphique, une relation linéaire positive existe . Si la droite de régression descend vers le bas avec l'extrémité supérieure de la ligne à l'ordonnée (axe) du graphique et l'extrémité inférieure s'étendant vers le bas dans le champ graphique, vers l'abscisse (axe) une relation linéaire négative existe.
Équation de régression linéaire estimée
Si les paramètres de la population étaient connus, l'équation de régression linéaire simple (montrée ci-dessous) pourrait être utilisée pour calculer la valeur moyenne de y pour une valeur connue de x .
Ε ( y ) = ( β 0 + β 1 x ).
Cependant, dans la pratique, les valeurs des paramètres ne sont pas connues, elles doivent donc être estimées en utilisant les données d'un échantillon de la population. Les paramètres de population sont estimés en utilisant des statistiques d'échantillons . Les statistiques de l'échantillon sont représentées par b 0 + b 1. Lorsque les statistiques de l'échantillon sont substituées aux paramètres de la population, l'équation de régression estimée est formée.
L'équation de régression estimée est présentée ci-dessous.
( ŷ ) = ( β 0 + β 1 x
( ŷ ) se prononce y chapeau .
Le graphique de l'équation de régression simple estimée s'appelle la droite de régression estimée.
Le b 0 est l'ordonnée à l'origine.
Le b 1 est la pente.
Le ŷ ) est la valeur estimée de y pour une valeur donnée de x .
Remarque importante: L'analyse de régression n'est pas utilisée pour interpréter les relations de cause à effet entre les variables. L'analyse de régression peut, cependant, indiquer comment les variables sont liées ou dans quelle mesure les variables sont associées les unes aux autres.
Ce faisant, l'analyse de régression a tendance à faire ressortir des relations saillantes qui justifient un examen approfondi par un chercheur averti.
Aussi connu comme: régression bivariée, analyse de régression
Exemples: La méthode des moindres carrés est une procédure statistique permettant d' utiliser des données d'échantillon pour trouver la valeur de l'équation de régression estimée. La méthode des moindres carrés a été proposée par Carl Friedrich Gauss, né en 1777 et mort en 1855. La méthode des moindres carrés est encore largement utilisée.
Sources:
Anderson, DR, Sweeney, DJ et Williams, TA (2003). Essentials of Statistics pour les affaires et l'économie (3e éd.) Mason, Ohio: Southwestern, Thompson Learning.
______. (2010). Expliqué: Analyse de régression. MIT News.
McIntyre, L. (1994). Utilisation de données sur les cigarettes pour une introduction à la régression multiple. Journal of Statistics Education, 2 (1).
Mendenhall, W., et Sincich, T. (1992). Statistiques pour l'ingénierie et les sciences (3ème éd.), New York, NY: Dellen Publishing Co.
Panchenko, D. 18.443 Statistiques des applications, automne 2006, section 14, Régression linéaire simple. (Massachusetts Institute of Technology: MIT OpenCourseWare)