본문 바로가기

Analytics on AWS3

[AWS] AWS 기반 데이터 파이프라인 구축하기 [4] - Analytics on AWS(AWS Glue Studio) 실습 과정 이전 포스팅에서 수행한 SageMaker을 활용하여 직접 코드로 변환한 작업을 Glue Studio의 새로운 그래픽 인터페이스를 사용하여 코드리스로 데이터 변환 데이터 변환 워크플로우를 시각적으로 구성하고 AWS Glue의 Apache Spark 기반 서버리스 ETL 엔진에서 실행 사용되는 서비스 서비스 설명 비고 AWS Glue Studio AWS Glue Studio는 AWS Glue에서 추출, 변환 및 로드(ETL) 작업을 쉽게 생성, 실행 및 모니터링 할 수 있는 새로운 그래픽 인터페이스(서버리스) AWS Glue Studio를 이용한 데이터 변환 Glue Studio 콘솔 이동 후 좌측 메뉴 jobs 클릭한다. jobs 클릭 후 Visual with a blank canvas 생성 S.. 2022. 8. 29.
[AWS] AWS 기반 데이터 파이프라인 구축하기 [3] - Analytics on AWS(AWS Glue dev endpoint, AWS Sagemaker) 실습 과정 AWS Glue ETL을 사용하여 데이터를 처리하고 결과를 다시 S3에 저장 Glue Dev Endpoint와 Sagemaker 노트북을 사용하여 데이터 변환 단계를 진행(pySpark) 사용되는 서비스 서비스 설명 비고 AWS Glue Dev Endpoint AWS Glue 스크립트를 개발하고 테스트할 수 있는 환경 엔드포인트가 데이터 스토어에 액세스한 후 개발 엔드포인트에 연결하는 노트북을 생성. 노트북을 사용하여 ETL 스크립트를 작성하고 테스트 가능 AWS Sagemaker jupyter notebook과 동일한 환경이나 aws 클라우드 플랫폼 Glue 개발 엔드포인트 생성 PySpark를 사용하여 Glue ETL 스크립트를 대화식으로 개발하기 위해 AWS Glue Dev Endpoin.. 2022. 8. 25.
[AWS] AWS 기반 데이터 파이프라인 구축하기 [1] - Analytics on AWS(Kinesis Data Firehose, S3) 전제 조건 AWS 계정에서 AdminstratorAccess에 대한 액세스 권한이 있어야합니다. 이 실습은 us-east-1 리전에서 실행되어야 합니다. 최신 브라우저에서 이 실습을 실행하세요. 실습 과정 Kinesis 데이터 생성기 유틸리티를 사용하여 거의 실시간으로 Dummy 데이터를 생성 Kinesis delivery stream을 사용하여 Amazon S3로 데이터를 전송 또한 일부 참조 데이터를 S3 버킷에 직접 복사 사용되는 서비스 서비스 설명 비고 Amazon Kinesis Data Firehose 스트리밍 데이터를 미리 정의된 목적지(데이터 레이크)에 데이터를 안전하게 전달하는 추출, 변환, 로드 서비스 스트리밍 데이터? 고객, 애플리케이션, 시스템에서 실시간으로 생성되는 데이터 데이터 레.. 2022. 8. 23.