[AWS] AWS 기반 데이터 파이프라인 구축하기 [시작]

AWS

천뿌니 2022. 8. 23. 11:13

728x90

이번 글에서는 AWS 서비스를 사용하여 데이터 수집부터 시각화까지 모두 다루는 데이터 파이프라인 구축을 진행한다.

이 워크숍에서는 AWS에서 분석 플랫폼을 구축하는 다양한 모듈 중 일부를 살펴본다.

AWS Glue, Amazon Athena, Amazon EMR, Amazon QuickSight, AWS Lambda 및 Amazon Redshift와 같은 여러 분석 서비스를 사용하여 데이터를 수집, 저장, 변환, 소비하는 방법을 배울 것이다.

서버리스 데이터 레이크 아키텍처 설계
Amazon S3 스토리지를 사용하여 데이터를 Data Lake로 수집하는 데이터 처리 파이프라인 구축
실시간 스트리밍 데이터에 Amazon Kinesis 사용
실시간 데이터 분석을 위해 Amazon Kinesis Data Analytics 사용
AWS Glue를 사용하여 데이터 세트 자동 분류
데이터 변환
- AWS Glue 개발 엔드포인트에 연결된 Amazon SageMaker Jupyter 노트북에서 대화형 ETL 스크립트 실행
- Glue Studio를 사용하여 AWS Glue에서 ETL 작업을 실행하고 모니터링
- Glue DataBrew를 사용하여 데이터 준비
- EMR을 사용하여 Spark 변환 작업 실행
Glue에서 Amazon Redshift로 데이터 적재
Amazon Redshift 모범 설계 사례 소개
Amazon Athena를 사용하여 데이터를 쿼리하고 Amazon QuickSight를 사용하여 시각화