Rayon Traitement des données et des connaissances
Machine learning : les fondamentaux : exploiter des données structurées en Python

Fiche technique

Format : Broché
Nb de pages : XIII-249 pages
Poids : 540 g
Dimensions : 19cm X 23cm
ISBN : 978-2-412-05602-8
EAN : 9782412056028

Machine learning

les fondamentaux
exploiter des données structurées en Python


Paru le
Broché XIII-249 pages
traduction de l'anglais Olivier Engler
Professionnels

Quatrième de couverture

Machine learning : les fondamentaux

Avec plus de 200 extraits de code et des dizaines de notes techniques, ce guide de référence pratique se propose de vous aider à tracer votre route dans le domaine de l'apprentissage machine avec des données structurées. Son auteur, Matt Harrison, a produit un guide précieux qui va constituer une ressource utile dans vos prochains projets de datalogie.

Destiné aux programmeurs, aux datalogues et aux ingénieurs en science des données, le livre aborde toutes les techniques actuelles de traitement et de visualisation de données structurées fondées sur l'approche de classification ou sur celle de régression. Il met à contribution des dizaines de librairies spécifiques.

  • Techniques de classification avec le jeu de données Titanic
  • Nettoyage des données et traitement des manquants
  • Analyse exploratoire de données
  • Prétraitements, confinement et variables factices
  • Sélection de caractéristiques, colinéarité et PCA
  • Modèles de classification (bayésien, SVM, KNN, forêts, etc.)
  • Métriques et évaluation d'une classification
  • Modèles de régression (XGBoost, arbre de décision, SVM, KNN, etc.)
  • Métriques et évaluation d'une régression (hétéroscédasticité, résidus)
  • Regroupement clustering (k-moyennes, analyse de grappes)
  • Réduction de dimensionnalité (PCA, UMAP, T-SNE, PHATE)
  • Pipelines de Scikit-learn

Biographie

Matt Harrison dirige la société de formation et de services autour de Python et de la datalogie MetaSnake. Il utilise le langage Python depuis le début des années 2000 dans divers domaines : datalogie, gestion d'entreprise, stockage de données, tests et automatisation, gestion de piles logicielles open source, finances et recherche.

Avis des lecteurs