AWS
[AWS] AWS 기반 데이터 파이프라인 구축하기 [시작] - Analytics on AWS
천뿌니
2022. 8. 23. 11:13
728x90
이번 글에서는 AWS 서비스를 사용하여 데이터 수집부터 시각화까지 모두 다루는 데이터 파이프라인 구축을 진행한다.
이 워크숍에서는 AWS에서 분석 플랫폼을 구축하는 다양한 모듈 중 일부를 살펴본다.
AWS Glue, Amazon Athena, Amazon EMR, Amazon QuickSight, AWS Lambda 및 Amazon Redshift와 같은 여러 분석 서비스를 사용하여 데이터를 수집, 저장, 변환, 소비하는 방법을 배울 것이다.
Analytics on AWS workshop process
사용 서비스
- Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스
- Amazon S3 : 클라우드 스토리지 서비스
- Aws Glue : 서버리스 데이터 통합 서비스
- Amazon Athena : S3에 저장된 데이터를 분석할 수 있는 대화식 쿼리 서비스
- Amazon EMR : 대규모 분산 데이터 처리 작업 클라우드 빅데이터 플랫폼
- AWS Lambda : 서버리스 컴퓨팅 플랫폼
- Amazon Redshift : 클라우드 데이터 웨어하우스
- Amazon QuickSight : 클라우드 BI 서비스
- Amazon SageMaker : 아마존 클라우드의 jupyer 노트북
워크숍 학습 결과
- 서버리스 데이터 레이크 아키텍처 설계
- Amazon S3 스토리지를 사용하여 데이터를 Data Lake로 수집하는 데이터 처리 파이프라인 구축
- 실시간 스트리밍 데이터에 Amazon Kinesis 사용
- 실시간 데이터 분석을 위해 Amazon Kinesis Data Analytics 사용
- AWS Glue를 사용하여 데이터 세트 자동 분류
- 데이터 변환
- AWS Glue 개발 엔드포인트에 연결된 Amazon SageMaker Jupyter 노트북에서 대화형 ETL 스크립트 실행
- Glue Studio를 사용하여 AWS Glue에서 ETL 작업을 실행하고 모니터링
- Glue DataBrew를 사용하여 데이터 준비
- EMR을 사용하여 Spark 변환 작업 실행
- Glue에서 Amazon Redshift로 데이터 적재
- Amazon Redshift 모범 설계 사례 소개
- Amazon Athena를 사용하여 데이터를 쿼리하고 Amazon QuickSight를 사용하여 시각화