본문 바로가기

데이터 파이프라인5

[AWS] AWS 기반 데이터 파이프라인 구축하기 [4] - Analytics on AWS(AWS Glue Studio) 실습 과정 이전 포스팅에서 수행한 SageMaker을 활용하여 직접 코드로 변환한 작업을 Glue Studio의 새로운 그래픽 인터페이스를 사용하여 코드리스로 데이터 변환 데이터 변환 워크플로우를 시각적으로 구성하고 AWS Glue의 Apache Spark 기반 서버리스 ETL 엔진에서 실행 사용되는 서비스 서비스 설명 비고 AWS Glue Studio AWS Glue Studio는 AWS Glue에서 추출, 변환 및 로드(ETL) 작업을 쉽게 생성, 실행 및 모니터링 할 수 있는 새로운 그래픽 인터페이스(서버리스) AWS Glue Studio를 이용한 데이터 변환 Glue Studio 콘솔 이동 후 좌측 메뉴 jobs 클릭한다. jobs 클릭 후 Visual with a blank canvas 생성 S.. 2022. 8. 29.
[AWS] AWS 기반 데이터 파이프라인 구축하기 [3] - Analytics on AWS(AWS Glue dev endpoint, AWS Sagemaker) 실습 과정 AWS Glue ETL을 사용하여 데이터를 처리하고 결과를 다시 S3에 저장 Glue Dev Endpoint와 Sagemaker 노트북을 사용하여 데이터 변환 단계를 진행(pySpark) 사용되는 서비스 서비스 설명 비고 AWS Glue Dev Endpoint AWS Glue 스크립트를 개발하고 테스트할 수 있는 환경 엔드포인트가 데이터 스토어에 액세스한 후 개발 엔드포인트에 연결하는 노트북을 생성. 노트북을 사용하여 ETL 스크립트를 작성하고 테스트 가능 AWS Sagemaker jupyter notebook과 동일한 환경이나 aws 클라우드 플랫폼 Glue 개발 엔드포인트 생성 PySpark를 사용하여 Glue ETL 스크립트를 대화식으로 개발하기 위해 AWS Glue Dev Endpoin.. 2022. 8. 25.
[AWS] AWS 기반 데이터 파이프라인 구축하기 [2] - Analytics on AWS(Amazon Glue, Amazon Athena) 실습 과정 S3에 저장된 데이터를 Glue Crawlers의 도움으로 AWS Glue Data Catalog에 데이터 세트를 등록 카탈로그 엔터티가 생성되면 Amazon Athena에서 데이터의 raw 포맷의 데이터에 대해 쿼리를 시작 사용되는 서비스 서비스 설명 비고 Amazon Glue 작업을 정의하여 데이터 원본에서 데이터 대상으로 데이터를 추출, 변환, 로드하는 데 필요한 작업을 수행한다. 원본 데이터에서 크롤러를 정의하여 메타데이터 테이블 정의로 AWS Glue Data Catalog를 채운다. 데이터 카탈로그란? 영구적 메타데이터 스토어 s3의 데이터를 테이블처럼 만드는 것을 카탈로그로 만든다고 한다. 데이터를 Glue Data Catalog에 등록시켜 놓으면 aws의 다른 분석 서비스에서 활.. 2022. 8. 25.
[AWS] AWS 기반 데이터 파이프라인 구축하기 [1] - Analytics on AWS(Kinesis Data Firehose, S3) 전제 조건 AWS 계정에서 AdminstratorAccess에 대한 액세스 권한이 있어야합니다. 이 실습은 us-east-1 리전에서 실행되어야 합니다. 최신 브라우저에서 이 실습을 실행하세요. 실습 과정 Kinesis 데이터 생성기 유틸리티를 사용하여 거의 실시간으로 Dummy 데이터를 생성 Kinesis delivery stream을 사용하여 Amazon S3로 데이터를 전송 또한 일부 참조 데이터를 S3 버킷에 직접 복사 사용되는 서비스 서비스 설명 비고 Amazon Kinesis Data Firehose 스트리밍 데이터를 미리 정의된 목적지(데이터 레이크)에 데이터를 안전하게 전달하는 추출, 변환, 로드 서비스 스트리밍 데이터? 고객, 애플리케이션, 시스템에서 실시간으로 생성되는 데이터 데이터 레.. 2022. 8. 23.
[AWS] AWS 기반 데이터 파이프라인 구축하기 [시작] - Analytics on AWS 이번 글에서는 AWS 서비스를 사용하여 데이터 수집부터 시각화까지 모두 다루는 데이터 파이프라인 구축을 진행한다. 이 워크숍에서는 AWS에서 분석 플랫폼을 구축하는 다양한 모듈 중 일부를 살펴본다. AWS Glue, Amazon Athena, Amazon EMR, Amazon QuickSight, AWS Lambda 및 Amazon Redshift와 같은 여러 분석 서비스를 사용하여 데이터를 수집, 저장, 변환, 소비하는 방법을 배울 것이다. Analytics on AWS workshop process 사용 서비스 Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스 Amazon S3 : 클라우드 스토리지 서비스 Aws Glue : 서버리스 데이터 통합 서비스 Amazon A.. 2022. 8. 23.