Statistiques descriptives

L’analyse de données contemporaine traite généralement des données avec un nombre important de variables, et de grandes quantités d’individus.

La gestion de ces variables avec des structures de données basiques devient vite compliquée. Le module pandas fait figure de référence quand il s’agit de traiter ces données tabulaires. Il étend les structures de données de base de python en ajoutant un type Series (pour représenter une variable) et un type DataFrame, qui est une sorte de dict dont les valeurs sont des Series. L’usage des data frames est indiqué lorsqu’on doit représenter un tableau de données hétérogènes (c’est à dire dont les variables -en colonnes- sont de natures différentes). Le module seabornpermet quant à lui de produire des graphiques facilement à partir d’un data frame.

1 Manipulation de tableaux de données avec pandas

pandas (doc de ref.) inclut des outils d’import et d’export de données, d’accès, de filtrage, et d’analyse de ces données.

La méthode read_csv permet de lire un fichier csv et de créer le data frame correspondant. Le chemin vers le fichier csv peut être une URL.

import pandas
# Choisir ce jeu de données par défaut
df = pandas.read_csv("https://raw.githubusercontent.com/lgreski/pokemonData/master/Pokemon.csv")
# Choisir ce jeu de données si vous êtes expert-dresseur et savez ce que vous faites
# df = pandas.read_csv("./pokemon2.csv")

	ID	Name	Type1	Type2	Total	HP	Attack	Defense	Sp. Atk	Sp. Def	Speed	Generation
0	1	Bulbasaur	Grass	Poison	318	45	49	49	65	65	45	1
1	2	Ivysaur	Grass	Poison	405	60	62	63	80	80	60	1
2	3	Venusaur	Grass	Poison	525	80	82	83	100	100	80	1
3	4	Charmander	Fire		309	39	52	43	60	50	65	1
4	5	Charmeleon	Fire		405	58	64	58	80	65	80	1

print("Nombre de lignes : ", len(df))
print("Nombre de colonnes : ", len(df.columns))

df['Name'].head(10).tolist()

df.loc[[9, 13], ['Name', 'Attack']]

	Name	Attack
9	Caterpie	30
13	Kakuna	25

df.loc[10:20,['Name', 'Attack']]

On même effectuer des requêtes pour sélectionner des sous-parties du tableau :

	Name	Attack
10	Metapod	20
11	Butterfree	45
12	Weedle	35
13	Kakuna	25
14	Beedrill	90
15	Pidgey	45
16	Pidgeotto	60
17	Pidgeot	80
18	Rattata	56
19	Raticate	81
20	Spearow	60

df[df['Attack']>160]['Name'].tolist()

df[df['Attack']>160]

	ID	Name	Form	Type1	Type2	Total	HP	Attack	Defense	Sp. Atk	Sp. Def	Speed	Generation
389	386	Deoxys	Attack Forme	Psychic		600	50	180	20	180	20	150	3
414	409	Rampardos		Rock		495	97	165	60	65	50	58	4
666	646	Kyurem	Black Kyurem	Dragon	Ice	700	125	170	100	120	90	95	5
686	150	Mewtwo	Mega Mewtwo X	Psychic	Fighting	780	106	190	100	154	100	130	6
691	214	Heracross	Mega Heracross	Bug	Fighting	600	80	185	115	40	105	75	6
693	248	Tyranitar	Mega Tyranitar	Rock	Dark	700	100	164	150	95	120	71	6
706	354	Banette	Mega Banette	Ghost		555	64	165	75	93	83	75	6
714	383	Groudon	Primal Groudon	Ground	Fire	770	100	180	160	150	90	90	6
715	384	Rayquaza	Mega Rayquaza	Dragon	Flying	780	105	180	100	180	100	115	6
717	445	Garchomp	Mega Garchomp	Dragon	Ground	700	108	170	115	120	95	92	6
720	475	Gallade	Mega Gallade	Psychic	Fighting	618	68	165	95	65	115	110	6
911	798	Kartana		Grass	Steel	570	59	181	131	59	31	109	7
916	800	Necrozma	Ultra Necrozma	Psychic	Dragon	754	97	167	97	167	97	129	7
1028	888	Zacian	Crowned Sword	Fairy	Steel	720	92	170	115	80	115	148	8
1043	898	Calyrex	Ice Rider	Psychic	Ice	680	100	165	150	85	130	50	8

df[df['Attack']>160]['Name']

On peut combiner (mais attention, pandas a ses propres opérateurs logiques, et les parenthèses sont indispensables) :

selection = df[(df['Attack']>130) & (df['Defense']>140)]['Name']

print("Les pokemons ayant plus 130 en attaque et plus de 140 en défense sont : ", 
      ' '.join(selection.tolist()))

df['diff_ad'] = [0] * len(df)

et aussi appliquer des fonctions à chaque élément d’une Series grâce à la méthode apply() :

df['diff_ad'] = (df['Attack']-df['Defense']).apply(abs)

Ici, la fonction abs est appliquée à la Series obtenue par différence des Séries Attack et Defense.

df['diff_ad'].head(10)

Exercice « MAIS POURQUOI ON A FAIT TOUT ÇA ? »

Les modules pandas et numpy incluent la plupart des fonctions que nous avons impléentées lors des séquences précédentes…

À l’aide la documentation et d’un peu de flair, retrouver les fonctions/méthodes correspondant à celles des TP précédents. S’il en manque, on pourra recourir au module statistics.

2 Profiling

La description rudimentaire des variables d’un data frame peut facilement s’automatiser. Il existe d’ailleurs des modules dédiés. Ces modules, utiles en première intention ne remplaceront hélas pas une étude approfondie « manuelle ».

import pandas_profiling

report = pandas_profiling.ProfileReport(df)
report.to_file(output_file='./rapport.html')

3 Activités pratiques

Exercice PODIUMS

Écrire une fonction podiums() qui détermine, pour chaque variable parmi Total, HP, Attack, Defense, Sp. Atk, Sp. Def et Speed, les trois meilleurs pokemons.

Exercice ÉVALUATION D’UN DECK

Écrire une fonction eval_dec(df, selec) qui évalue un sous-ensemble de pokemons (défini dans la liste selec) du data frame df, en calculant :

la moyenne des points d’attaque,
la moyenne des points de défense,
la moyenne des points d’attaque spéciale,
la moyenne des points de défense spéciale,
la moyenne des points de vitesse,

et en déterminant le quantile de ce deck moyen, pour chacune de ces caractéristiques

4 Pour aller plus loin

4.1 Outils avancés de production graphique

Les bibliothèques suivantes permettent de produire des graphiques avancés, pour certains dynamiques et intéractifs.

Statistiques descriptives

1 Manipulation de tableaux de données avec `pandas`

2 Profiling

3 Activités pratiques

4 Pour aller plus loin

4.1 Outils avancés de production graphique

4.2 Outils de construction de dashboard

1 Manipulation de tableaux de données avec pandas

2 Profiling

3 Activités pratiques

4 Pour aller plus loin

4.1 Outils avancés de production graphique

4.2 Outils de construction de dashboard

1 Manipulation de tableaux de données avec `pandas`