[Spark] PySpark의 기본 데이터 가공 프로세스
데이터 이모저모/Spark2024. 1. 3. 02:52[Spark] PySpark의 기본 데이터 가공 프로세스

🧐 개요 이번 포스트에서는 데이터프레임 가공 과정에서 가장 기본적으로 사용되는 PySpark 로직을 설명하고자 합니다. PySpark의 기본적인 가공 로직들은 다양한 분야 및 데이터 기반의 프로젝트에서 반복적으로 사용되는 내용이지만, 구현 방식이 다채롭고 활용 범위가 넓다보니 꾸준히 사용하지 않으면 빠르게 잊혀지고 내용을 잘못 기억하게 되더군요(내 기억력의 문제인가..). 이를 개인적으로 예방하고 필요한 시기에 찾아볼 수 있도록 하는 차원에서 포스트를 작성합니다. 📁 파일 데이터 불러오기 # read json files df = spark.read.option("multiline", "true").json("") # read csv files df = spark.read.csv("", header=Tru..

image