[AWS] AWS 기반 데이터 파이프라인 구축하기 [3] - Analytics on AWS(AWS Glue dev endpoint, AWS Sagemaker)

728x90

사용되는 서비스	서비스 설명	비고
AWS Glue Dev Endpoint	AWS Glue 스크립트를 개발하고 테스트할 수 있는 환경	엔드포인트가 데이터 스토어에 액세스한 후 개발 엔드포인트에 연결하는 노트북을 생성. 노트북을 사용하여 ETL 스크립트를 작성하고 테스트 가능
AWS Sagemaker	jupyter notebook과 동일한 환경이나 aws 클라우드 플랫폼

PySpark를 사용하여 Glue ETL 스크립트를 대화식으로 개발하기 위해 AWS Glue Dev Endpoint를 생성한다.

엔드포인트 이름 : analyticsworkshopEndpoint1
IAM Role : 이전에 정의한 AnalyticsworkshopGlueRole
Security configuration.. parameters 확장 : Data processing units (DPUs)을 2로 설정(비용 절감)
Networking : S3 데이터 스토어에만 연결
SSH public key : 기본값
앤드포인트 상태가 PROVISIONING에서 READY로 변경되어야 한다. (6-10분 소요)

이 파일을 로컬로 다운로드하고 저장하고, 노트북 콘솔로 이동한다.

ETL 스크립트가 성공적으로 실행되면 콘솔로 이동

데이터를 변환했으므로 Amazon Athena를 사용하여 데이터를 쿼리 할 수 있다. Glue 또는 Amazon EMR을 사용하여 데이터를 추가로 변환/집계할 수도 있다.

다음 포스팅은 현재 포스팅과 똑같은 ETL 과정이지만 새로운 그래픽 인터페이스인 AWS Glue Studio를 활용하여 진행할 것이다.

[AWS] AWS 기반 데이터 파이프라인 구축하기 [4] - Analytics on AWS(AWS Glue Studio) (0)	2022.08.29
[AWS] AWS 기반 데이터 파이프라인 구축하기 [2] - Analytics on AWS(Amazon Glue, Amazon Athena) (0)	2022.08.25
[AWS] AWS 기반 데이터 파이프라인 구축하기 [1] - Analytics on AWS(Kinesis Data Firehose, S3) (0)	2022.08.23
[AWS] AWS 기반 데이터 파이프라인 구축하기 [시작] - Analytics on AWS (0)	2022.08.23

데이터 탐험 일지