[Spark/Spotify] 군집화(KMeans/clustering)를 기반으로 한 음원 추천 시스템 구현하기
프로젝트 이모저모2024. 1. 8. 16:53[Spark/Spotify] 군집화(KMeans/clustering)를 기반으로 한 음원 추천 시스템 구현하기

🧐 개요 이번 포스트는 pyspark.ml 내부의 군집화(clustering) 모델을 기반으로 한 추천 시스템 로직 구현 과정을 설명합니다. 군집화란, 유사한 특정을 지닌 데이터들을 그룹으로 묶어주는 분류 방식입니다. 군집화는 비지도학습이기 때문에 사용자의 설정 부여 없이 군집을 자체적으로 생성하므로 '추천 시스템에 과연 적합할까?' 라는 의문이 들으실 수도 있습니다. 그래서 해당 포스트에서는 군집화를 통해 사용자 데이터를 군집화 분석하여 분포 위치를 파악하고, 빅데이터 내 해당 위치 인근에 있는 데이터를 선별하여 추천하는 방식을 설명합니다. 📁 데이터 준비 실습 환경에서 제가 준비한 데이터셋은 아래와 같습니다. 모든 데이터셋은 동일한 스키마를 가지고 있습니다. Spotify 특정 사용자의 플레이리스트(..

image