TriDeepRec: A Hybrid Deep Learning Approach to Content and Behaviour-based Recommendation Systems
Hăloiu Patricia-Elena, Gall Ioan-Robert
Introducere
Sistemele de recomandare sunt esențiale în peisajul digital modern, având un impact semnificativ asupra creșterii veniturilor și implicării utilizatorilor. Aceste sisteme sunt utilizate pe scară largă în platformele de streaming, comerț electronic și rețele sociale pentru a oferi sugestii personalizate. Trei categorii principale de sisteme de recomandare domină domeniul: bazate pe conținut, colaborative și hibride.
Sistemele bazate pe conținut recomandă elemente utilizatorilor pe baza caracteristicilor acestor elemente, ignorând interacțiunile dintre utilizatori. În schimb, sistemele de filtrare colaborativă utilizează comportamentul anterior al utilizatorilor pentru a prezice preferințele acestora. Sistemele hibride combină aceste două abordări, abordând limitările fiecăreia pentru a oferi recomandări mai precise și diversificate.
TriDeepRec reprezintă un pas înainte în această direcție, combinând datele comportamentale și de conținut prin utilizarea tehnicilor avansate de învățare profundă. Sistemul integrează CAERS (Convolutional Autoencoder Recommendation System), NCF (Neural Collaborative Filtering) și MLP (Multilayer Perceptron) pentru a îmbunătăți semnificativ performanța recomandărilor, rezolvând în același timp problema cold-start.
Lucrări conexe
Sisteme de recomandare bazate pe învățare profundă
Învățarea profundă joacă un rol crucial în sistemele moderne de recomandare, datorită capacității sale de a extrage informații semnificative din seturi complexe și voluminoase de date. Câteva exemple notabile includ:
• GAP (Generalized Attention Pooling): Utilizează rețele neuronale convoluționale (CNN) pentru a analiza matricea de interacțiuni utilizator-item. GAP implementează filtre convoluționale încrucișate și o metodă de pooling global, care îmbunătățesc captarea interacțiunilor complexe dintre utilizatori și elemente, reducând totodată riscul de suprainvățare.
• GCF-YA (Graph-based Collaborative Filtering - Yet Another): Propune utilizarea rețelelor neuronale grafic (GNN) pentru a combate problema sparsității datelor. Această abordare aplică propagarea informației și mecanisme de atenție pentru a extrage interacțiuni din grafuri bipartite utilizator-item.
• DPTUPCDR (Deep Personalized Transfer of User Preferences for Cross-Domain Recommendation): Adresează problema cold-start prin transfer de învățare, utilizând rețele neuronale pentru a transfera cunoștințe între domenii diferite, crescând precizia recomandărilor.
Aceste metode demonstrează modul în care algoritmii de învățare profundă depășesc limitările sistemelor tradiționale, oferind soluții eficiente pentru sparsitatea datelor și personalizarea recomandărilor.
Sisteme de recomandare hibride
Sistemele hibride combină diverse tehnici pentru a îmbunătăți precizia și a depăși limitele metodelor individuale. Exemplele includ:
• DMF (Deep Matrix Factorization): Combina factorizarea matricială cu rețele neuronale pentru a reprezenta utilizatorii și articolele într-un spațiu latent comun, îmbunătățind predicțiile pentru interacțiunile utilizator-item.
• ECAE (Enhanced Collaborative AutoEncoder): Utilizează straturi de distilare pentru a gestiona zgomotul din date, transformând feedback-ul discret al utilizatorilor în valori continue. Această metodă integrează generarea datelor și recalificarea într-un cadru unificat.
• CoDAE (Correlative Denoising AutoEncoder): Aplică trei autoencodere pentru a învăța reprezentările utilizatorilor în roluri multiple (evaluatori, trusteri și trustee). Introduce termeni de regularizare pentru a corela caracteristicile utilizatorilor, îmbunătățind robustețea modelului în condiții de date sparse.
Contribuția TriDeepRec
TriDeepRec se diferențiază prin integrarea datelor de conținut (prin CAERS) și a comportamentelor istorice (prin NCF) într-un cadru unic bazat pe un perceptron multistratificat (MLP). Aceasta permite captarea atât a relațiilor liniare, cât și a celor neliniare dintre utilizatori și elemente.
• Integrarea avansată a CAERS și NCF printr-un MLP permite sistemului să exploateze atât informațiile comportamentale, cât și caracteristicile conținutului.
• Rezolvarea problemei cold-start prin utilizarea datelor de conținut oferă un avantaj față de alte modele hibride.
• Rezultatele experimentale demonstrează că TriDeepRec depășește performanțele modelelor individuale și ale altor sisteme hibride, cu îmbunătățiri semnificative în metrici precum RMSE și MAE.
Obiectivele Studiului
Articolul propune dezvoltarea unui sistem de recomandare hibrid, TriDeepRec, care:
• Utilizează Convolutional Autoencoder Recommendation System (CAERS) pentru analiza datelor de conținut.
• Integrează Neural Collaborative Filtering (NCF) pentru analiza comportamentală a utilizatorilor.
• Combina cele două abordări prin Multilayer Perceptron (MLP) pentru a genera recomandări precise.
• Abordează problema cold-start, asigurând recomandări pentru utilizatorii sau elementele noi.
Metodologia Propusă
Arhitectura TriDeepRec
TriDeepRec este un sistem hibrid care integrează componentele CAERS, NCF și MLP. Arhitectura sa este descrisă mai jos:
CAERS (Convolutional Autoencoder Recommendation System)
CAERS utilizează un autoencoder convoluțional pentru procesarea datelor de conținut. Aceasta implică un encoder pentru extragerea caracteristicilor relevante și un decoder pentru generarea predicțiilor.
Arhitectura sistemului de recomandare bazat pe autoencoder convoluțional (CAERS).
Arhitectura sistemului de recomandare bazat pe autoencoder convoluțional (CAERS).
Această abordare permite modelului să abordeze eficient problema cold-start, permițând generarea de recomandări fără a necesita date istorice despre utilizatori sau articole.
NCF (Neural Collaborative Filtering)
NCF integrează factorizarea matricială generalizată (GMF) pentru a modela interacțiunile liniare și perceptronul multistratificat (MLP) pentru relațiile neliniare. Predicțiile sunt obținute prin îmbinarea scorurilor GMF și MLP, optimizând astfel acuratețea.
Arhitectura framework-ului de filtrare colaborativă neurală (NCF).
Arhitectura framework-ului de filtrare colaborativă neurală (NCF).
NCF contribuie la analiza interacțiunilor istorice dintre utilizatori și articole, asigurând o predicție mai precisă a scorurilor.
MLP (Multilayer Perceptron)
MLP combină ieșirile din CAERS și NCF într-un vector unificat, care este procesat prin straturi multiple de neuroni pentru generarea scorurilor finale. Aceasta asigură integrarea optimă a datelor de conținut și comportament.
Arhitectura propusă a sistemului hibrid de recomandare (TriDeepRec).
Arhitectura propusă a sistemului hibrid de recomandare (TriDeepRec).
Integrarea celor trei componente – CAERS, NCF și MLP – în TriDeepRec demonstrează eficiența unui sistem hibrid în îmbunătățirea diversității și preciziei recomandărilor.
Date și Configurația Experimentală
Seturi de Date Utilizate
• MovieLens 100K: Conține 100.000 de evaluări pentru 1.632 de filme de la 943 de utilizatori. Acest set de date este frecvent utilizat pentru testarea sistemelor de recomandare datorită dimensiunii moderate și diversității sale.
• MovieLens 1M: Include 1 milion de evaluări pentru 3.883 de filme de la 6.040 de utilizatori. Dimensiunea mai mare a acestui set de date îl face potrivit pentru testarea scalabilității și robusteții sistemului propus.
Datele au fost completate cu informații suplimentare despre filme (gen, poveste) și utilizatori (vârstă, profesie, gen), contribuind astfel la o mai bună personalizare a recomandărilor.
Parametri Experimentali
Pentru evaluarea sistemului TriDeepRec, au fost configurați următorii parametri experimentali:
• CAERS (Convolutional Autoencoder Recommendation System):
◦ Rețea convoluțională cu două straturi de convoluție și max-pooling, urmate de un encoder și un decoder.
◦ Dimensiunea latentă (compressed representation) setată la 128 pentru echilibrul între performanță și complexitate.
• NCF (Neural Collaborative Filtering):
◦ Dimensiunea embedding-urilor utilizatorilor și articolelor este de 64.
◦ Rețeaua conține trei straturi ascunse cu arhitectura (64, 128, 512), utilizând activarea ReLU.
• MLP (Multilayer Perceptron):
◦ Combinația rezultatelor CAERS și NCF se face printr-un strat ascuns cu 32 de neuroni, urmat de un strat de ieșire pentru predicția finală.
◦ Funcția de activare utilizată este ReLU, iar stratul final folosește o funcție sigmoid pentru predicțiile de scoruri.
Configurația Experimentală
Sistemul propus a fost evaluat folosind următoarea configurație hardware și software:
• Hardware:
◦ GPU: NVIDIA Tesla V100 cu memorie de 16GB.
◦ CPU: Intel Xeon cu 32 de nuclee și 128GB RAM.
• Software:
◦ Biblioteci utilizate: TensorFlow 2.5 și Keras pentru dezvoltarea rețelelor neuronale.
◦ Mediul de dezvoltare: Python 3.8.
Metodologie de Evaluare
Performanța sistemului TriDeepRec a fost măsurată utilizând două metrici standard:
• RMSE (Root Mean Square Error): Evaluarea diferenței dintre scorurile prezise și cele reale. O valoare mai mică indică o performanță mai bună.
• MAE (Mean Absolute Error): Măsoară abaterea medie absolută între scorurile reale și cele prezise.
Protocole de Experimentare
• Datele au fost împărțite în proporție de 80% pentru antrenare și 20% pentru testare.
• Modelul a fost antrenat timp de 50 de epoci, utilizând optimizatorul Adam cu o rată de învățare de .
• Pentru a evita suprainvățarea, a fost utilizat un mecanism de regularizare L2 cu factorul de penalizare .
Rezultate și Analiză
Performanță Comparativă
Evaluarea performanței sistemului TriDeepRec s-a realizat utilizând metricile RMSE și MAE pentru seturile de date MovieLens 100K și MovieLens 1M. Comparativ cu metodele individuale (CAERS și NCF), sistemul propus a demonstrat îmbunătățiri semnificative:
• MovieLens 100K:
◦ Reducere a RMSE cu 4.05% față de CAERS și 5.50% față de NCF.
◦ Reducere a MAE cu 3.80% față de CAERS și 4.95% față de NCF.
• MovieLens 1M:
◦ Reducere a RMSE cu 8.14% față de CAERS și 7.90% față de NCF.
◦ Reducere a MAE cu 7.60% față de CAERS și 7.40% față de NCF.
Analiza Detaliată a Rezultatelor
Impactul CAERS
• CAERS s-a dovedit eficient în abordarea problemei cold-start, generând recomandări relevante în lipsa datelor istorice.
• Autoencoder-ul convoluțional a permis extragerea unor caracteristici complexe din datele de conținut, contribuind semnificativ la acuratețea predicțiilor.
Impactul NCF
• NCF a demonstrat o performanță superioară în analiza interacțiunilor istorice dintre utilizatori și articole.
• Integrarea GMF și MLP în cadrul NCF a permis captarea relațiilor liniare și neliniare, îmbunătățind diversitatea recomandărilor.
Beneficiile Integrării prin MLP
• Combinarea rezultatelor obținute din CAERS și NCF a dus la o reducere semnificativă a erorilor de predicție.
• MLP a asigurat o integrare optimă a datelor de conținut și comportament, maximizând precizia scorurilor finale.
Compararea cu Alte Sisteme
Performanța TriDeepRec a fost comparată cu alte modele avansate din literatura de specialitate:
• Comparativ cu GAP (Generalized Attention Pooling), TriDeepRec a demonstrat o reducere a RMSE cu 3.5% pentru setul MovieLens 1M.
• Comparativ cu CoDAE, TriDeepRec a obținut o creștere a diversității recomandărilor cu 7.2%, datorită integrării avansate a datelor de conținut și comportament.
Vizualizarea Rezultatelor
Rezultatele experimentale sunt prezentate grafic pentru o mai bună înțelegere a performanței TriDeepRec:
Compararea performanței sistemului TriDeepRec cu metodele individuale (CAERS și NCF).
Compararea performanței sistemului TriDeepRec cu metodele individuale (CAERS și NCF).
Reducerea RMSE în cazul sistemului TriDeepRec comparativ cu alte modele.
Reducerea RMSE în cazul sistemului TriDeepRec comparativ cu alte modele.
Reducerea MAE în cazul sistemului TriDeepRec comparativ cu alte modele.
Reducerea MAE în cazul sistemului TriDeepRec comparativ cu alte modele.
Concluzii asupra Analizei
Analiza rezultatelor experimentale indică faptul că TriDeepRec oferă:
• Performanță superioară față de metodele individuale și alte modele hibride.
• Reducerea semnificativă a erorilor de predicție (RMSE și MAE) pe seturile de date utilizate.
• Diversitate și relevanță mai mare a recomandărilor, datorită integrării avansate a datelor de conținut și comportament.
Concluzii
TriDeepRec reprezintă o contribuție semnificativă în domeniul sistemelor de recomandare hibride, integrând eficient componente avansate precum CAERS (Convolutional Autoencoder Recommendation System), NCF (Neural Collaborative Filtering) și MLP (Multilayer Perceptron). Această integrare a permis combinarea datelor de conținut și comportament pentru a oferi recomandări mai precise, relevante și diversificate.
Testările pe seturile de date MovieLens 100K și MovieLens 1M au demonstrat performanța superioară a sistemului, evidențiind:
• Reducerea semnificativă a RMSE și MAE comparativ cu metodele individuale și alte modele avansate.
• Abordarea eficientă a problemei cold-start, permițând generarea de recomandări chiar și pentru utilizatori sau articole noi.
• Capacitatea de a depăși modele bine cunoscute, precum GAP și CoDAE, în diversitatea și acuratețea recomandărilor.
Cu toate acestea, TriDeepRec are câteva limitări, printre care necesitatea resurselor computaționale semnificative și dependența de calitatea datelor de intrare. Viitoarele cercetări ar putea explora extinderea testării pe alte domenii, integrarea de tehnici de explicabilitate și optimizarea procesării distribuite pentru a reduce timpul de antrenare.
În concluzie, TriDeepRec demonstrează potențialul combinării tehnicilor de învățare profundă pentru a îmbunătăți sistemele de recomandare și oferă o bază solidă pentru cercetări viitoare. Acest sistem nu doar că adresează provocările existente, dar deschide și noi direcții de explorare pentru dezvoltarea de soluții mai robuste și adaptabile.
99 Amirhossein Ghadami, TriDeepRec: A Hybrid Deep Learning Approach to Content and Behaviour-based Recommendation Systems, Springer, 2024.
Comentarii
Trimiteți un comentariu