High Performance Spark를 읽고 간단히 정리해본 글입니다.
잘못된 정보나 오류가 있다면 언제나 지적 부탁드립니다 :)

why Spark?

  • Apache Spark는 범용 목적의 고성능 분산 처리 시스템
  • 하나 이상의 서버에서 처리할 수 있는 수준 이상의 대용량 데이터 처리 가능

최적화하지 않으면 매우 느리거나 불안정할 수 있다.

  • 최적화를 통해 동일 클러스터에서 동일 작업을 100배이상 빠르게 실행되도록 개선도 가능
  • 그러나 모든 case에 모든 기법을 적용할 수 있는 것은 아님
  • 특히 Spark는 유사한 종류의 다른 프레임워크에 비해 세밀한 설정이 가능하기 때문에 데이터의 구조와 형태에 대해 잘 파악하고 최적화를 적용하는 것이 중요
  • 시스템 및 데이터의 특징을 통해 Spark가 어떻게 동작하는지를 이해하는 것이 가장 어려운 수준의 데이터 engineering 이슈를 해결하는 방법

why Scala?

  • 스칼라는 파이썬보다 빠름
  • 스칼라는 자바 API보다 훨씬 사용하기 쉬움
    • 인라인 함수나, Spark API를 사용하는것이나 자바보다 더 편함
    • Spark Shell은 정말 강력한 도구인데, 자바에서는 미지원

+ Recent posts