1 Introduction

“Il y a un nouveau Musée du Parfum à Paris, il a l’air trop bien !” Ainsi, je l’ai accompagnée pour découvrir ce musée niché au coeur de la capitale, et j’ai appris qu’un parfum, comme un morceau de musique, est composé de plusieurs notes, qui représentent les différentes senteurs.

Je ne suis pas un nez, j’étais incapable de reconnaître l’origine des senteurs dans les parfums. Mais je sais analyser les données…

2 Préparation des données

2.1 Sources des données

La base de données contiennent uniquement deux variables : les noms des parfums, et leurs descriptions. Il se peut que les notes des parfums soient précisées : notes de tête, notes de coeur et notes de fond.

L’analyse portera uniquement sur ces données textuelles, et ne contitue pas une analyse quantitative.

head(data,4)
##                            noms
## 1:           dolce floral drops
## 2:                      illicit
## 3: la vie est belle eau florale
## 4:             la vie est belle
##                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     notes
## 1:                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        dolce floral drops évoque la senteur délicate de fleurs blanches fraîchement cueillies et encore constellées de rosée. notes de tête: fleur de papayer, feuilles de néroli. notes de cœur: amaryllis blanche, jonquille blanche, nénuphar blanc. notes de fond: cachemire, musc, bois de santal
## 2:                                     vif et provocant mais doté d’une douceur sous-jacente, illicit est un floriental moderne à la signature envoûtante et naturellement féminine.une expérience olfactive totalement unique, où les nuances réconfortantes du gingembre flirtent avec les notes féminines de la rose et les nuances sophistiquées du jasmin, avant de s'évaporer pour révéler la signature du : un accord gourmand de miel et d’ambre.solide, facetté et complexe, le flacon illicit évoque la silhouette architecturale d’un verre de style art déco. le luxueux jus doré scintille à travers les gravures verticales qui entourent la base du flacon, surmonté d'un capot carré argenté qui joue sur la tendance.inspiré du cuir doré et facetté des pièces de la collection printemps/été 2015 de jimmy choo, l'étui illicit évoque un esprit glamour avec une touche de rébellion. notes de tête : gingembrenotes de coeur : rosenotes de fond : accord miel-ambre
## 3:                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      le 1er osmanthus gourmand de lancôme. la vie est belle réinterprète sa célèbre dans une nouvelle déclaration olfactive autour de l’osmanthus, fleur symbole de la sagesse.une florale tout en délicatesse créée à partir des essences naturelles les plus nobles.
## 4: embellissez votre vie avec la vie est belle, le féminin iconique de lancôme. incarnée par julia roberts, la vie est belle est une ode universelle à la beauté de la vie. une signature unique créée par trois des plus grands eurs français. une déclaration olfactive unique, créée par trois des plus grands eurs français, ce nouveau délicat et féminin mêle des notes sucrées d'iris de florence, de jasmin d'arabie, de fleur d'oranger et d'essence de patchouli. découvrez une nouvelle philosophie de vie et suivez votre propre chemin vers le bonheur avec la vie est belle. vaporisez la vie est belle directement sur la peau en privilégiant les points chauds de votre corps : à l'intérieur des poignets, sous le lobe de l’oreille, derrière les genoux. notes transversales : iris, accord gourmand notes de tête : poire, mûre notes de cœur : concrète d'iris pallida, absolus de fleur d'oranger et de jasmin sambac notes de fond : essence de cœur de patchouli

3 Analyse globale des ingrédients

Dans un premier temps, je voulais analyser les mots les plus fréquemment utilisés dans ces descriptions. Puis, un nettoyage des mots vides nous donnera des informations sur les principaux ingrédients utilisé dans les parfums.

3.1 Extraction des ingrédients

corpus = Corpus(VectorSource(data$notes))
corpus <- tm_map(corpus, removePunctuation)
mots_vides=read.csv2("mots_vides.csv")$ingredients
corpus = tm_map(corpus, removeWords, mots_vides)
corpus= tm_map(corpus, stemDocument)
dtm = DocumentTermMatrix(corpus)

ingredient.counts = apply(dtm, 1, function (x) sum(x))
dtm = dtm[ingredient.counts > 0,]

dtm_m = as.matrix(dtm)

ingredients.frequences = sort(colSums(dtm_m), decreasing=TRUE)
ingredients.frequences = data.frame(ingredients = names(ingredients.frequences),
                                    freq=ingredients.frequences)

ingredients.frequences$ingredients = reorder(ingredients.frequences$ingredients,
                                             ingredients.frequences$freq)

3.2 Visualisation des principaux ingrédients

ggplot(ingredients.frequences[1:30,], aes(x=ingredients, y=freq)) +
  geom_point(size=5, colour="red") + coord_flip() +
  ggtitle("Fréquence des top 30 ingrédients")

4 Modélisation des topics

corpus2 = tm_map(corpus, removeWords, c(as.character(mots_vides),"fleur","floral","rose"))
dtm2 = DocumentTermMatrix(corpus2)
ingredient.counts2 = apply(dtm2, 1, function (x) sum(x))
dtm2 = dtm2[ingredient.counts2 > 0,]
recipes.lda = LDA(dtm2, 7)
t = terms(recipes.lda,12)
t
##       Topic 1     Topic 2       Topic 3     Topic 4     Topic 5    
##  [1,] "boisé"     "boi"         "jasmin"    "boi"       "jasmin"   
##  [2,] "patchouli" "musc"        "musc"      "vanill"    "vanill"   
##  [3,] "violett"   "jasmin"      "boisé"     "boisé"     "patchouli"
##  [4,] "oriental"  "vanill"      "boi"       "jasmin"    "musc"     
##  [5,] "vanill"    "patchouli"   "vanill"    "musc"      "tonka"    
##  [6,] "jasmin"    "d’orang"     "muguet"    "violett"   "santal"   
##  [7,] "musc"      "pamplemouss" "ambré"     "bergamot"  "bergamot" 
##  [8,] "bergamot"  "néroli"      "santal"    "patchouli" "boisé"    
##  [9,] "mandarin"  "citron"      "orient"    "cèdre"     "ambré"    
## [10,] "boi"       "chypré"      "sambac"    "mandarin"  "boi"      
## [11,] "ambr"      "mandarin"    "iri"       "frambois"  "dorang"   
## [12,] "cèdre"     "santal"      "patchouli" "pivoin"    "fève"     
##       Topic 6     Topic 7   
##  [1,] "boi"       "musc"    
##  [2,] "jasmin"    "thé"     
##  [3,] "musc"      "bergamot"
##  [4,] "santal"    "jasmin"  
##  [5,] "mandarin"  "citron"  
##  [6,] "boisé"     "ceris"   
##  [7,] "patchouli" "boi"     
##  [8,] "cèdre"     "cèdre"   
##  [9,] "ylang"     "fruit"   
## [10,] "vanill"    "vanill"  
## [11,] "bergamot"  "boisé"   
## [12,] "solinot"   "tonka"

5 A continuer

Cette analyse globale permet de voir les notes de manière confondues. Il est sans doute intéressant de voir l’association de différentes notes.

Copyright © 2016 Blog de Kezhan Shi