Bir Parfümün Ailesi Nasıl Belirlenir?
Çoğu parfüm bir koku ailesi etiketiyle gelmiyor. Bir algoritmaya koklamayı nasıl öğretirsiniz?
Bazı parfümler taze hissettirir — deniz esintisi, keskin narenciye, ıslak yapraklar. Bazıları sıcak — vanilya, amber, tütün. Bu sezgisel ayrımlar "koku aileleri" kavramının temelidir.
Michael Edwards'ın Koku Çarkı, parfümeri dünyasının en yaygın sınıflandırma sistemidir: Çiçeksi, Taze, Odunsu, Amberi. Her ana ailenin altında alt aileler var — taze-aromatik, odunsu-baharatlı gibi. Bu çark, bir parfümün karakterini tek bir kelimeyle özetler.
Sorun şu: çoğu parfüm bu etiketle gelmiyor.
Malzeme Listesinden Karakter Çıkarmak
Bir parfümün genellikle sahip olduğu şey bir nota listesi. Üst notalar, kalp notaları, alt notalar — bazen de sadece düz bir liste. Lavanta, bergamot, sandal ağacı, vanilya.
İnsan burnu bu listeye bakıp sezgisel bir yargıya varabilir: "Bu muhtemelen taze-aromatik bir şey." Ama 281.000 parfüm için bu işi elle yapamazsınız.
Yaklaşımımız şöyle: her notanın bir "kişiliği" var. Lavanta taze-aromatik dünyaya ait. Vanilya sıcak-tatlı. Sandal ağacı odunsu. Bu kişilikleri sistematik olarak tanımlarsak, bir parfümün nota listesinden o parfümün genel karakterini çıkarabiliriz.
Üç Katmanlı Çıkarım
Süreç üç adımda işliyor:
Notalardan akorlara. Her nota, bir veya birden fazla akora katkı sağlıyor. Lavanta hem "aromatik" hem "taze" akorlarına bağlı. Bu bağlantılar ağırlıklı — lavanta aromatik akora güçlü, taze akora daha zayıf katkı yapıyor.
Akorlardan ailelere. Her akor, bir koku ailesine işaret ediyor. "Aromatik" akor taze aileye, "baharatlı" akor amberi aileye bağlı. Bu bağlantılar da ağırlıklı.
Baskın aile kazanır. Tüm bu ağırlıklar toplandığında, en güçlü aile o parfümün ailesi olarak atanıyor.
Sık Olan Az Bilgi Taşır
Burada kritik bir sorun var: bazı notalar neredeyse her parfümde bulunuyor. Misk, 281.000 parfümün yarısından fazlasında var. Eğer her notayı eşit ağırlıkta sayarsanız, misk tek başına sonucu domine eder — ama misk bir parfümü ayırt edici kılmaz.
Bu problem bilgi biliminde iyi bilinen bir kavram: sıklık ile bilgi değeri ters orantılıdır. Aynı mantık Google'ın arama motorunda da kullanılır — "ve", "bir", "için" gibi kelimeler her metinde geçer, ama arama sonucunu belirleyen nadir kelimelerdir.
Biz de aynı prensibi uyguladık. Her notanın ağırlığı, o notanın ne kadar nadir olduğuyla doğru orantılı. Oud çok az parfümde bulunur — oud içeren bir parfümde odunsu-amberi karakter güçlü bir sinyal. Misk ise neredeyse dekoratif — varlığı çok az bilgi taşır.
Bu yaklaşım sonuçları dramatik şekilde iyileştirdi. Oud'lu bir parfüm artık gerçekten odunsu çıkıyor, misk'in her şeyi "taze" yapması engelleniyor.
Sonuçlar
254.000 parfümü otomatik sınıflandırdık — toplam veritabanının yüzde doksanından fazlası. İki farklı veri durumu için iki farklı yol izliyoruz: zengin akor verisi olan parfümler doğrudan akorlardan sınıflandırılıyor, sadece nota listesi olanlar ise nota-akor çıkarım zincirinden geçiyor.
Kalan yüzde on — yaklaşık 27.000 parfüm — hiç nota veya akor verisi olmayan ürünler. Veri yoksa çıkarım da yok. Bunları "sınıflandırılamadı" olarak bırakmayı, yanlış bir tahmin yapmaya tercih ettik.
Sınıflandırma mükemmel mi? Hayır. Parfümeri subjektif bir alan — uzmanlar bile bir parfümün ailesi konusunda anlaşamayabilir. Ama algoritmamız tutarlı, ölçeklenebilir ve çoğu durumda insan sezgisiyle örtüşen sonuçlar veriyor.
Diğer Yazılar
281.000 Parfüm, Tek Platform
Türkçe parfüm keşfi neden bu kadar zor ve 281.000 ürünü tek bir yerde organize etmek ne anlama geliyor?
6 dk okumaPuan Nasıl Hesaplanır?
Bir puan gerçekliği yansıtmalı, sadece hacmi değil. 5 düşünceli kullanıcı oyu, 10.000 referans puanın yanında nasıl görünür olur?
7 dk okumaEstetik Veritabanı
Çoğu ürün veritabanı resimli bir elektronik tablo gibi görünür. Biz tasarım müzesi gibi hissettirmesini istedik.
7 dk okuma281.000 Sayfa Nasıl Hızlı Kalır?
281.000 ürün sayfasına sahip olmak, her biri 3 saniye sürüyorsa bir anlam ifade etmez. Hız bir özellik değil, saygıdır.
7 dk okuma