[AWS] AWS 기반 데이터 파이프라인 구축하기 [2] - Analytics on AWS(Amazon Glue, Amazon Athena)

728x90

사용되는 서비스	서비스 설명	비고
Amazon Glue	작업을 정의하여 데이터 원본에서 데이터 대상으로 데이터를 추출, 변환, 로드하는 데 필요한 작업을 수행한다. 원본 데이터에서 크롤러를 정의하여 메타데이터 테이블 정의로 AWS Glue Data Catalog를 채운다.	데이터 카탈로그란? 영구적 메타데이터 스토어 s3의 데이터를 테이블처럼 만드는 것을 카탈로그로 만든다고 한다. 데이터를 Glue Data Catalog에 등록시켜 놓으면 aws의 다른 분석 서비스에서 활용 할 수 있다.
Amazon Athena	표준 SQL을 사용해 S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스

AWS Glue를 사용하기 전 IAM 콘솔로 이동하여 새 AWS Glue service role을 생성해야 한다.

이를 통해 AWS Glue는 S3에 저장된 데이터에 액세스하고 Glue 데이터 카탈로그에서 필요한 엔터티를 생성할 수 있다.

AWS Glue 콘솔로 이동 후 왼쪽 패널에 크롤러 선택하고 크롤러 생성

Glue 카탈로그로 이동하여 크롤링된 데이터 탐색

Amazon Athena를 사용하여 새로 수집된 데이터를 쿼리

"첫 번째 쿼리를 실행하기 전에, Amazon S3에서 쿼리 결과 위치를 설정해야 합니다"라는 경고창이 보인다면

보기 설정 -> 관리 -> s3://yourname-analytics-workshop-bucket/query_results/ 입력

SELECT * FROM "analyticsworkshopdb"."raw" limit 10;

SELECT activity_type,
         count(activity_type)
FROM raw
GROUP BY  activity_type
ORDER BY  activity_type

S3에 저장된 데이터를 crawler를 활용하여 data catalog로 저장하여 athena에서 쿼리로 원하는 데이터를 확인 가능했다.

다음 포스팅은 AWS Glue ETL을 사용하여 데이터를 변환하는 작업을 진행할 것이다.

[AWS] AWS 기반 데이터 파이프라인 구축하기 [4] - Analytics on AWS(AWS Glue Studio) (0)	2022.08.29
[AWS] AWS 기반 데이터 파이프라인 구축하기 [3] - Analytics on AWS(AWS Glue dev endpoint, AWS Sagemaker) (1)	2022.08.25
[AWS] AWS 기반 데이터 파이프라인 구축하기 [1] - Analytics on AWS(Kinesis Data Firehose, S3) (0)	2022.08.23
[AWS] AWS 기반 데이터 파이프라인 구축하기 [시작] - Analytics on AWS (0)	2022.08.23

데이터 탐험 일지