AWS

[AWS] AWS 서비스인 Redshifs, EMR, Athena 특징

또개해삼 2022. 3. 13. 01:26

Redshift

  • 클라우드에서 완벽하게 관리되는 페타바이트급 데이터 웨어하우스(DW) 서비스입니다.
  • 레드시프트가 가진 페타바이트 규모의 데이터와 S3에 구축된 데이터 레이크에 있는 엑사바이트 규모의 데이터에 대해 쿼리를 실행할 수 있습니다.
  • 기존의 데이터 웨어하우스 보다 10배 빠른 성능을 자랑합니다
  • 기계학습을 통해 프로세스들의 부하량을 계산하고 가장 빠른 처리가 가능하게 대기열을 구성합니다.
  • 클라우드 기반이다 보니 간단 신속한 확장과 백업이 가능합니다.
  • 여러 조인 및 하위 쿼리가 포함된 매우 복잡한 SQL과 관련된 워크로드에 대해 가장 빠른 쿼리 성능을 가짐

 

Athena

  • 표준 SQL을 사용해 Amazon S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스입니다.
  • 서버리스 서비스이므로 설정하거나 관리할 인프라가 없으며 데이터 분석을 바로 시작 가능합니다.
  • 표준 SQL을 완벽 지원하는 Presto(SQL 쿼리 엔진)를 사용하며, CSV, JSON, ORC, Parquet, Avro 등 다양한 표준 데이터 형식과 호환됩니다.
  • Redshift가 복잡한 정형 데이터에 최적화된 쿼리 서비스인 반면, Athena는 데이터 형식 지정, 인프라 관리에 관계없이 데이터에 대한 대화형 쿼리를 쉽게 실행할 수 있습니다.
  • 사이트에서 성능 문제를 해결하기 위해 일부 웹 로그에서 빠른 쿼리를 실행하기만 될 경우에 좋습니다.

 

EMR (Elastic Map Reduce)

  • 빅 데이터 프레임워크 실행을 간소화하는 관리형 클러스터 플랫폼입니다.
  • SQL 쿼리를 실행하는 것 외에도 다양한 작업을 수행합니다.
    • Machine Learning, 그래프 분석, 데이터 변환, 스트리밍 데이터 등 애플리케이션에서 필요한 코딩 작업
  • Hadoop, Spark, Presto, Hbase 등 방대한 양의 데이터를 분산 처리 프레임워크로 처리 및 분석할 경우 사용됩니다.