Mathématiques ED A

Mathématiques ED A

Courbe de tendance

Une régression linéaire simple consiste à trouver l’équation d’une droite résumant au mieux un nuage de points. Cet ED s’attache à comprendre le mécanisme aboutissant aux équations des courbes de tendance, ou droites d’ajustement.

Vous avez 3h20min pour réaliser ce travail (7h45-11h05 ou 13h30-16h50 ou 13h00-16h20). À l’issue de ce temps, vous présenterez un bilan de vos travaux et de vos résultats pendant 10 min maximum. S’en suivront 10 min de questions. L’ensemble sera évalué par une note attribuée à la totalité du sous-groupe. La totalité des supports présentés seront exclusivement manuscrits (pas de diaporama ni d’impressions informatiques) au format A5 paysage.

Critères d’évaluation : fond (rigueur scientifique, résultats, etc.), forme (supports, prestation, etc.) et analyse (problématique, plan, etc.).

Introduction

L’ensemble de ce sujet est écrit pour être appliqué au logiciel Microsoft Excel.

Format CSV

Un fichier au format *.csv (pour comma-separated values) est un fichier texte contenant des données tabulaires sous forme de valeurs et de séparateurs (virgules, point-virgules, tabulation, etc.).

C’est un format de fichier populaire, relativement facile à gérer, et idéal pour des échanges ponctuels de données. Les tableurs informatiques comme le logiciel Microsoft Excel interagi très bien avec ce type de format.

Pour importer un fichier au format *.csv dans Microsoft Excel, il faut parfois passer par l’Assistant d’Importation de texte :

Données \rightarrow Données externes \rightarrow À partir du texte

Moyenne

La moyenne arithmétique (ou moyenne empirique) est la somme des valeurs divisée par le nombre de valeurs.

\overline{x}=\dfrac{x_1+x_2+\dots +x_n}{n}=\displaystyle \dfrac{1}{n} \sum\limits_{i=1}^{n} x_i

Dans Excel, une plage de cellule se définit par la référence de deux cellules séparées par « : ». Par exemple, la place « B3:C5 » définit la place allant de la cellule B3 à la cellule C5.

Plutôt que de redéfinir la plage de cellule à chaque fois, il est possible de lui donner un nom et d’y faire appel ensuite :

  1. Sélectionnez la cellule, la plage de cellules à laquelle vous souhaitez attribuer un nom.
  2. Cliquez sur le champ Nom à l’extrémité gauche de la barre de formule.
    Zone Nom
  3. Tapez le nom que vous souhaitez utiliser pour faire référence à votre sélection.
  4. Appuyez sur Entrée.

NB. Il est possible de supprimer des noms attribués dans
Formules \rightarrow Gestionnaire de noms

  • la fonction SOMME() permet d’additionner des valeurs
  • la fonction NBVAL() compte le nombre de cellules qui ne sont pas vides dans une plage

Q1. À l’aide de ces deux fonctions, déterminer la moyenne arithmétique de la colonne B du fichier suivant :

NB. Ce fichier est constitué de 3 colonnes.

La colonne B pourra être renommée boris.

NB. Ne pas oublier de remplir le compte rendu au fur est à mesure avec les résultats trouvés à chacune des questions.

  • la fonction MOYENNE() renvoie la moyenne (arithmétique) des arguments

Q2. À l’aide de la fonction MOYENNE(), déterminer la moyenne arithmétique de la colonne C (qui pourra être renommée cali) et vérifier que le résultat précédent est correct.

  • la fonction MIN() renvoie le plus petit nombre de la série de valeurs
  • la fonction MAX() renvoie le plus petit nombre de la série de valeurs

Q3. Calculer le minimum et le maximum de boris et de cali en utilisant les fonctions MIN() et MAX().

Écart-type

L’écart-type \sigma est une notion mathématique qui est une mesure de dispersion de données.

\sigma=\sqrt{\dfrac{1}{n} \displaystyle \sum\limits_{i=1}^{n}x_i^2-\overline{x}^2 }
  • fonction RACINE() donne la racine carrée d’un nombre (équivalent à ^(1/2))

Q4. Créer une nouvelle colonne qui calcule les carrés des valeurs de boris (qui pourra être appelée boris_carre).

Calculer l’écart-type de boris à l’aide de borris_carre et de la formule ci-dessus.

  • la fonction ECARTYPE() ou ECARTYPE.STANDARD() calcule l’écart-type d’un échantillon

Vous remarquerez que le résultat n’est pas le même que le précédent, car Microsoft Excel calcule l’écart-type « sans biais ». L’écart type sans biais, correspond au même calcul, mais pour une observation de moins, c’est-à-dire multiplié par le nombre de termes sur le nombre de termes moins un. Autrement dit, pour 12 termes nous allons multiplier la formule de l’écart-type par 12/11. La fonction correspondante au calcul « avec biais » est la fonction ECARTYPEP() ou ECARTYPE.PEARSON().

Q5. Calculer l’écart-type de cali à l’aide de la fonction ECARTYPE().

Calculer la moyenne, le minimum, le maximum et l’écart-type de la colonne B (qui pourra être appelée barry) du fichier suivant :

Faire un bilan de ces valeurs pour boris, cali et barry et conclure sur le sens de l’écart-type.

Équation de la droite d’ajustement

Une régression linéaire simple consiste à trouver l’équation d’une droite résumant au mieux un nuage de points. L’équation de cette droite peut s’écrire y = a~x+b~~~(a,b) \in \mathbb{R}^2 avec a, le coefficient directeur de la droite, et b, son ordonnée à l’origine.

Nous allons chercher à déterminer les valeurs de a et de b pour un nuage de point donné.

Variance

La variance d’une distribution correspond au calcul résumé ainsi « la moyenne des carrés moins le carré de la moyenne » et est une mesure servant à caractériser la dispersion d’un échantillon.

\text{Var}=\dfrac{1}{n} \displaystyle \sum\limits_{i=1}^{n}x_i^2-\overline{x}^2

Pour information, l’écart-type se défini comme la racine carrée de la variance. L’écart-type est souvent plus parlant que la variance pour appréhender la dispersion.

\sigma=\sqrt{\dfrac{1}{n} \displaystyle \sum\limits_{i=1}^{n}x_i^2-\overline{x}^2 }=\sqrt{\text{Var}}

Q6. Importer le fichier suivant et renommer les colonnes (la A pourra être renommée alice, la B  basile, la C cody et la D dora) :

Définir une nouvelle colonne qui calcule le carré de basile (qui pourra être renommée basile_carre), de cody (cody_carre).

Calculer la variance de basile et de cody grâce à la formule ci-dessus.

  • la fonction VAR() ou VAR.S() calcule la variance d’un échantillon

Q7. Calculer la variance de basile et de cody grâce à cette nouvelle fonction.

Vous remarquerez encore une fois que le résultat n’est pas le même que le précédent, car Microsoft Excel calcule la variance « sans biais ». La fonction correspondante au calcul « avec biais » est la fonction VAR.P().

Covariance

La covariance  est un indicateur simultanée de deux variables, et correspond à « la moyenne des produits moins le produits de chacune des moyennes ».

\text{Cov}=\dfrac{1}{n} \displaystyle \sum\limits_{i=1}^{n}x_i~y_i-\overline{x}~\overline{y}

Q8. Calculer la covariance d’alice et de basile avec la formule ci-dessus.

  • la fonction COVARIANCE.STANDARD() calcule la covariance d’un échantillon « sans biais »
  • la fonction COVARIANCE.PEARSON() calcule la covariance d’un échantillon

Q9. Vérifier que la covariance d’alice et de basile calculée précédemment correspond bien à la covariance avec biais.

Calculer les covariances sans biais d’alice/basile, et d’alice/cody.

Calcul des paramètres de l’équation de la droite d’ajustement

La pente de la droite d’ajustement se calcule en faisant le quotient de la covariance du nuage de point et de la variance du nuage.

a=\dfrac{\text{Var}(y_i)}{\text{Cov}(x_i,y_i)}

Il est alors possible d’en déduire l’ordonnée à l’origine

b=\overline{y_i} - a\times \overline{x_i}

Calcul du coefficient de corrélation

La valeur du coefficient de corrélation linéaire correspond à la covariance divisée par le produit des écart-types. C’est souvent le carré de sa valeur qui est exploité.

R^2=\left[ \dfrac{\text{Cov}(x_i,y_i)}{\sigma (x_i)\sigma (y_i)} \right] ^2

Q10. Calculer les équations des droites d’ajustement pour basile par rapport à alice et pour cody par rapport à alice, ainsi que leurs coefficients de corrélation respectifs.

Pour aller plus loin

Q11. Calculer le coefficient de corrélation pour dora. Tracer la courbe représentative de dora par rapport à alice. Quelle est la forme de la fonction associée à dora?

Q12. Créer une nouvelle colonne égale au logarithme népérien de la colonne alice (qui pourra être appelée ln_alice). Tracer la courbe représentative de dora par rapport à ln_alice.

Déterminer l’équation de la droite d’ajustement de dora par rapport à ln_alice, ainsi que le coefficient de corrélation.

Q13. Conclure sur l’équation de la droite d’ajustement de dora par rapport à alice.

Application

Thermistance

La loi de variation de la résistance d’une thermistance est donnée par la formule ci-dessous :

R(T)=R(T_0)~\exp \left[ B\left( \dfrac{1}{T}-\dfrac{1}{T_0}\right) \right]

T est en K et R en \Omega . T_0=295,75~K et R(T_0)=2930,51~\Omega

Des résultats expérimentaux sont téléchargeables ici :

Q14. Calculer les colonnes \text{ln}(R(T)/R(T_0)) et 1/T.

À l’aide des courbes d’ajustements, déterminer le coefficient B de l’équation ci-dessus.

Simulation numérique

Une simulation numérique génère le fichier suivant :

Il contient 3 courbes de température en Kelvin en fonction du temps, le temps allant de 0 à 5000s avec un pas de 50s.

Q15. Quelles sont, pour chacune des courbes, les températures moyennes du régime permanent (à partir de t=2000s) ? Les résultats devront être donnés en degrés Celsius.

Il est à noter qu’entre t=200s et t=1500s, la courbe de température la plus élevée a une allure logarithmique.

Q16. Déterminer l’équation de la courbe de tendance de la courbe de température la plus élevée entre t=200s et t=1500s.