Article 4. Première utilisation de fonctions simples comprises dans Panda.
Premiers résultats sur le compte LinkedIn d’un consultant ISITIX
DIR = '/content/gdrive/MyDrive/nom_du_projet'
file = os.path.join(DIR, 'Connections.csv')
df_connection = pd.read_csv(file)
Avant le nettoyage des données
Avant de procéder au nettoyage des données, nous avons analysé le champ "position" extrait de la base de contacts LinkedIn : Connections.csv, composée d'environ 1500 entrées. Notre première étape a consisté à évaluer le nombre de mots (tokens) formant l'intitulé de poste de chaque contact.
| Nombre de tokens | Poste du contact |
| 1 | CTO |
| 2 | Directeur général |
| 4 | Chief Information Security Officer |
| 7 | Directeur des ventes et du développement commercial |
| 13 | Psychologue du travail - Contrôleur de sécurité (en cours d'agrément) - Référente RPS PDL |
Diviser pour compter
Dans notre analyse du champ "position" nous segmentons les descriptions en mots individuels, utilisant pour cela les fonctions str.split() et str.len(). Cette première étape décompose chaque titre en éléments analysables, que nous regroupons ensuite et en triant ces éléments par nombre de mots, grâce à la fonction groupby(). Une fois organisé en fréquence décroissante, le tri des données nous révèle les quantité de mots les plus utilisés.
df_connection['Nombre_de_token'] = df_connection['Position'].str.split().str.len()
df_Position_NbrToken = df_connection.groupby('Nombre_de_token')['URL'].nunique().sort_values(ascending=False).reset_index()
df_Position_NbrToken = df_Position_NbrToken.rename(columns={'URL': 'Count'})
df_Position_NbrToken.head()
La phase finale de notre processus consiste à renommer les colonnes pour une meilleure lisibilité et présentation. Ce qui nous donne le résultat suivant :

Une fois les données obtenues, on détermine un certain nombre de médianes.
mediane_longueur = df_connection['Nombre_de_token'].median()
val_80 = df_connection['Nombre_de_token'].quantile(0.8)
mediane_occurence = df_Position_NbrToken['Count'].median()
Une fois les données médianes obtenues nous pouvons passer à l'élaboration du graphique nous utilisons pour ça la bibliothèque panda matplotlib.pyplot que nous avions installé plus tôt.
Le graphe : une image vaut mille mots
La figure : définir les dimensions
Tout commence par la création d'une "toile" sur laquelle nous allons construire notre graphique. Pour Matplotlib, cela se traduit par la création d'une figure.
plt.figure(figsize=(10, 6))
Cette ligne crée une nouvelle figure avec une taille spécifiée de 10 pouces par 6 pouces.
Localisateurs d'axe : s'assurer que chaque détail compte
Pour obtenir un graphique aussi précis et informatif que possible, nous utilisons des localisateurs d'axe. Ils permettent d’ajuster les marques sur l'axe des x :
from matplotlib.ticker import MaxNLocator