Journal
Ce journal contient 4 entrées.
Seeing Theory
A visual introduction to probability and statistics.
Computing linear regression in one pass
Dans le même ordre d'idée que le lien précédent, sauf qu'il s'agit cette fois d'effectuer une régression linéaire en continu. Comme beaucoup d'algorithmes continu, il présente l'avantage de travailler en mémoire constante.
Le thumbnail vient de XKCD : https://xkcd.com/1725
Le thumbnail vient de XKCD : https://xkcd.com/1725
Computing skewness and kurtosis in one pass
Comme vous l'avez peut être déjà remarqué, une bonne partie de mes travaux de thèse ont porté sur le traitement continu de flux de données : http://benjaminbillet.fr/media/benjaminbillet_memoire.pdf
De fait, je m'intéresse beaucoup aux techniques mathématiques permettant de réaliser des calculs en continu (c'est-à-dire sans mémoriser l'intégralité des résultats passés).
Cet article de blog décrit comment calculer en continu l'espérance, la variance, l'écart-type, le coefficient de dissymétrie et le coefficient d'aplatissement sur un flux d'échantillons. De manière plus générale il s'agit d'une méthode pour calculer les moments (https://fr.wikipedia.org/wiki/Moment_%28mathématiques%29). On pourrait imaginer donc l'utiliser pour calculer d'autres mesures statistiques d'ordre supérieur. J'essayerais d'ailleurs, si je parviens à bien tout comprendre, d'en faire une implémentation généralisée :)
Quelques références:
- B. P. Welford (1962)."Note on a method for calculating corrected sums of squares and products".
- Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn.
De fait, je m'intéresse beaucoup aux techniques mathématiques permettant de réaliser des calculs en continu (c'est-à-dire sans mémoriser l'intégralité des résultats passés).
Cet article de blog décrit comment calculer en continu l'espérance, la variance, l'écart-type, le coefficient de dissymétrie et le coefficient d'aplatissement sur un flux d'échantillons. De manière plus générale il s'agit d'une méthode pour calculer les moments (https://fr.wikipedia.org/wiki/Moment_%28mathématiques%29). On pourrait imaginer donc l'utiliser pour calculer d'autres mesures statistiques d'ordre supérieur. J'essayerais d'ailleurs, si je parviens à bien tout comprendre, d'en faire une implémentation généralisée :)
Quelques références:
- B. P. Welford (1962)."Note on a method for calculating corrected sums of squares and products".
- Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn.
Les données sont-elles si objectives que ça ?
C'est un peu le b.a.-ba des statistiques ou, globalement, du raisonnement. Je cite :
"- Même si les moyens de collecte de données augmentent en volume et en efficacité, il y a trop de paramètres à prendre en compte pour atteindre l'objectivité. Aucune machine, aussi puissante soit-elle, ne pourra jamais capter la complexité du monde dans son ensemble.
- Les données brutes ne servent absolument à rien. Il convient de les trier, de les visualiser, de les mettre en perspective. Or, le tri est un choix, et comme lorsque le journaliste choisit l'angle de son papier, ce choix est éminemment subjectif."
D'où, lorsque l'on reçoit des chiffres mis en forme, l'importance de connaître : (i) les données brutes, (ii) la méthodologie de collecte (taille et nature d'échantillon, protocole expérimental, durée, etc.), (iii) la méthodologie d'interprétation (traitement des données, choix de mise en perspective, etc.) et (iv) le contexte (qui présente ses données et quelles sont ses intentions).
Si l'une de ces informations est manquante, alors les chiffres donnés ne valent rien. Même en présence d'un test statistique (http://www.nature.com/news/scientific-method-statistical-errors-1.14700).
"- Même si les moyens de collecte de données augmentent en volume et en efficacité, il y a trop de paramètres à prendre en compte pour atteindre l'objectivité. Aucune machine, aussi puissante soit-elle, ne pourra jamais capter la complexité du monde dans son ensemble.
- Les données brutes ne servent absolument à rien. Il convient de les trier, de les visualiser, de les mettre en perspective. Or, le tri est un choix, et comme lorsque le journaliste choisit l'angle de son papier, ce choix est éminemment subjectif."
D'où, lorsque l'on reçoit des chiffres mis en forme, l'importance de connaître : (i) les données brutes, (ii) la méthodologie de collecte (taille et nature d'échantillon, protocole expérimental, durée, etc.), (iii) la méthodologie d'interprétation (traitement des données, choix de mise en perspective, etc.) et (iv) le contexte (qui présente ses données et quelles sont ses intentions).
Si l'une de ces informations est manquante, alors les chiffres donnés ne valent rien. Même en présence d'un test statistique (http://www.nature.com/news/scientific-method-statistical-errors-1.14700).
Ce journal est basé sur Ginger, un gestionnaire de lien minimaliste développé dans le cadre d'un stage de perfectionnement. Pour plus d'informations, consulter le wiki consacré à mes projets personnels.