AWS

[AWS] AWS 기반 데이터 파이프라인 구축하기 [시작] - Analytics on AWS

천뿌니 2022. 8. 23. 11:13
728x90

이번 글에서는 AWS 서비스를 사용하여 데이터 수집부터 시각화까지 모두 다루는 데이터 파이프라인 구축을 진행한다.

이 워크숍에서는 AWS에서 분석 플랫폼을 구축하는 다양한 모듈 중 일부를 살펴본다.

AWS Glue, Amazon Athena, Amazon EMR, Amazon QuickSight, AWS Lambda 및 Amazon Redshift와 같은 여러 분석 서비스를 사용하여 데이터를 수집, 저장, 변환, 소비하는 방법을 배울 것이다.

 


Analytics on AWS workshop process

data pipeline on AWS

 

사용 서비스

  • Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스
  • Amazon S3 : 클라우드 스토리지 서비스
  • Aws Glue : 서버리스 데이터 통합 서비스
  • Amazon Athena : S3에 저장된 데이터를 분석할 수 있는 대화식 쿼리 서비스
  • Amazon EMR : 대규모 분산 데이터 처리 작업 클라우드 빅데이터 플랫폼
  • AWS Lambda : 서버리스 컴퓨팅 플랫폼
  • Amazon Redshift : 클라우드 데이터 웨어하우스
  • Amazon QuickSight : 클라우드 BI 서비스
  • Amazon SageMaker : 아마존 클라우드의 jupyer 노트북

 

워크숍 학습 결과

  • 서버리스 데이터 레이크 아키텍처 설계
  • Amazon S3 스토리지를 사용하여 데이터를 Data Lake로 수집하는 데이터 처리 파이프라인 구축
  • 실시간 스트리밍 데이터에 Amazon Kinesis 사용
  • 실시간 데이터 분석을 위해 Amazon Kinesis Data Analytics 사용
  • AWS Glue를 사용하여 데이터 세트 자동 분류
  • 데이터 변환
    • AWS Glue 개발 엔드포인트에 연결된 Amazon SageMaker Jupyter 노트북에서 대화형 ETL 스크립트 실행
    • Glue Studio를 사용하여 AWS Glue에서 ETL 작업을 실행하고 모니터링
    • Glue DataBrew를 사용하여 데이터 준비
    • EMR을 사용하여 Spark 변환 작업 실행
  • Glue에서 Amazon Redshift로 데이터 적재
  • Amazon Redshift 모범 설계 사례 소개
  • Amazon Athena를 사용하여 데이터를 쿼리하고 Amazon QuickSight를 사용하여 시각화