# Analyse Exploratoire des Données

## 0. Importation des bibliothèques 

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## 1.	Analyse Statistique Descriptive

### 1.1 Statistique de base pour les colonnes numériques

In [None]:
df = pd.read_csv("Documents/travaux_pratiques/autos.csv", encoding = 'Latin-1')
num_values = ['price', 'yearOfRegistration', 'powerPS', 'odometer']
df[num_values].describe()

### 1.2 Répartition des valeurs uniques pour la marque du voiture 

In [None]:
df['brand'].value_counts()

### 1.3. Marque de voiture la plus fréquente

##### La marque de voiture la plus fréquente est : volkswagen.
##### Oui, Il existe des marques moins représentées, tel que : lada, lancia, rover

## 2.	Visualisation des Données

## 2.1 Histogramme du prix des véhicules

In [None]:
import seaborn as sns
sns.histplot(data= df['price'], bins= 30, kde= True)
plt.title("Histogram de prix des voitures")
plt.xlabel("Prix")
plt.ylabel("Frequence")

### La distribution des données prix est asymétrique (par exemple, très biaisée à droite), cela peut indiquer qu'il existe de nombreuses voitures à bas prix, mais peu à prix élevé.

## 2.2 Graphique de barre pour la repartition de vehicule par année de fabrication

In [None]:
plt.figure(figsize=[20,20])
year_counts = df['yearOfRegistration'].value_counts().sort_index()
plt.xlabel("Année de fabrication")
plt.ylabel("Nombre de vehicule")
year_counts.plot(kind = 'bar', color= "skyblue")
plt.show()

## 2.3 Kilométrage moyenne par marque de voiture

In [None]:
brand_KM_mean = df.groupby('brand')['odometer'].mean().sort_values()
brand_KM_mean.plot(kind = 'bar')
plt.title("Nombre de KM moyen pour chaque brand")
plt.ylabel("KM moyen")
plt.xlabel("Brand")
plt.show()

- Marque a le kilométrage moyen le plus bas est : trabant
- Marque a le kilométrage moyen le plus élevé est : Saab

## 3.	Relation entre les Variables

## 3. 1. relation entre le prix et le kilométrage des véhicules

In [None]:
import seaborn as sns
plt.figure(figsize= [20,20])
sns.scatterplot(data = df, x = 'odometer', y = 'price')
plt.title("relation entre odometer et price")
plt.xlabel("kilométrage")
plt.ylabel("price")
plt.show()

### On s'attend généralement à une relation négative : les voitures avec plus de kilomètres sont moins chères.

## 3.2 Relation entre l'année de fabrication et le prix des véhicules

In [None]:
plt.figure(figsize=[50, 10])
sns.boxplot(data = df, x = 'yearOfRegistration', y = 'price')
plt.title("price vs année de fabrication")
plt.xlabel("year of registration")
plt.ylabel('price of vehicle')
plt.show()

### Les voitures récentes ont souvent des prix plus élevés.

## 3.3 Matrice de corrélation

In [None]:
correlation_matrix = df.corr()

In [None]:
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matrice de corrélation')
plt.show()

• Interprétation :
- Identifie les variables numériques qui sont fortement corrélées

## Cette matrice indique la force et la direction de la relation linéaire entre les variables. La valeur du coefficient de corrélation varie entre -1 et 1 :
- 1 indique une corrélation positive parfaite.

- -1 indique une corrélation négative parfaite.

- 0 indique aucune corrélation linéaire.

## 4. Questions d’Analyse Supplémentaires

## 4.1 Répartition des types de carburant

In [None]:
ftype_values = df['fuelType'].value_counts()
ftype_values

In [None]:
plt.figure(figsize=[3,5])
fuel_values = df['fuelType'].value_counts()
fuel_values
fuel_values.plot(kind = 'pie', autopct = '%1.1f%%', figsize =[8,8])
plt.title("distribution de données")
plt.show()

### Oui, Il y a un type de carburant dominant, plus représenté que les autres : le benzin

## 4.2 Prix moyen par marque et type de carburant

In [None]:
avg_price = df.groupby(['brand', 'fuelType'])['price'].mean()
print(avg_price)

### Interprétation :
- Permet de comparer les prix selon la marque et le type de carburant.


## 4.3 Les 10 voitures les plus chers 

In [None]:
top_10_veh = df.nlargest(10, 'price')
print(top_10_veh[['brand', 'price', 'yearOfRegistration', 'fuelType']])

### Interprétation :
•	Permet d’observer les caractéristiques communes des véhicules très chers.


## 5. Conclusion

1.	Le véhicule Volkswagen est le plus fréquents.
2.	La distribution des prix est asymétrique, avec de nombreuses voitures bon marché.
3.	Une relation inverse est observée entre le kilométrage et le prix.
4.	Les voitures récentes ont tendance à être plus chères.
