[Spark] CPU 및 메모리 사용량 설정하기
데이터 이모저모/Spark2023. 12. 22. 16:20[Spark] CPU 및 메모리 사용량 설정하기

🧐 개요 특별한 설정을 추가하지 않으면, Apache Spark는 작업을 수행하는 과정에서 컴퓨터의 CPU 및 메모리 리소스를 전부 사용하도록 설정되어 있습니다. 따라서 무거운 작업을 반복적으로 구동하는 경우, 컴퓨터의 리소스 범위를 초과하게 되어 에러가 발생하거나 시스템 리소스가 다운되는 경우가 발생하게 됩니다(저 역시도 로컬 머신에서 360억 row의 parquet 데이터를 읽는 도중 시스템이 멈추는 상황이 발생하였습니다). 다행히도 Spark에서는 작업 수행 과정에서 사용할 리소스 양을 설정하는 환경 설정을 기능적으로 제공하고 있습니다. 방법이 어렵지 않기 때문에 오늘은 CPU 및 메모리 사용량을 설정하는 방법을 다루겠습니다. 📙 공식 가이드 확인하기 spark-env.sh 스크립트에 Apache ..

[GitHub] 깃허브 레포지토리 잔디가 생기지 않는 경우
클라우드 이모저모/GitHub2023. 12. 17. 14:56[GitHub] 깃허브 레포지토리 잔디가 생기지 않는 경우

🧐 개요 이번 포스트는 GitHub Contribution 연동이 정상적으로 이루어지지 않을 때의 해결 방법을 소개합니다. 작업 내용이 코드로는 반영이 되었는데, Github Contribution으로 인정되지 않는 경우가 발생할 수 있습니다. 이런 현상은 주로 작업 환경을 이전하는 시기에, 입력한 Configuration 정보에 무언가 문제가 있기 때문에 발생합니다. 깃허브의 내용물을 살펴보면, 당일 수행한 커밋 작업들이 제대로 남아 있습니다. 즉 GitHub 활동의 클라우드 연동과 관련된 인증 요소에 무언가 문제가 있는 것입니다. 🛠️ 해결 방법 새로운 컴퓨터에 Git Commit 작업을 처음 수행할 때, username과 password 정보를 입력하도록 안내합니다. 입력한 정보는 git confi..

[GCP] 방화벽 규칙 생성 및 태그 적용하기
클라우드 이모저모/GCP2023. 12. 5. 17:59[GCP] 방화벽 규칙 생성 및 태그 적용하기

🧐 개요 개인 및 팀 단위의 프로젝트 내에서 구글 클라우드 플랫폼(약칭 GCP) 서비스들을 이용하고 있던 차에 이런 메일들을 심심치 않게 받아 왔습니다. 요약해서 이야기하자면 ‘귀하의 인스턴스(구글 가상머신)가 암호화폐 체굴에 사용되었으며, 이것은 우리의 정책 위반이니 잘 처신해라’ 라는 내용입니다. 그런데 당연하지만, 컴퓨터 분야를 이제 막 시작한 취준생이 암호화폐 체굴을 할 수 있을 리가 없죠. 외부 IP로부터 도스(DoS) 공격을 당해 인스턴스가 해킹 및 크래킹을 당해서 해당 상황이 발생하는 것입니다. 즉 뭔가 보안 요소에 문제가 있는 것이죠. VM 인스턴스의 목록을 보니, 크래킹으로 인해 암호화폐 체굴에 사용되던 namenode 인스턴스가 다운되어 있습니다. 이런 빅 데이터 솔루션들의 클러스터 구..

image