Article Image
Article Image
read
공부를 시작할땐 목차부터
Part1 빅데이터와 스파크
1. 아파치 스파크란
- 철학
- 등장 배경
- 역사
- 현재와 미래
- 실행
- 정리
2. 스파크 간단히 살펴보기
- 기본 아키텍처
- 다양한 언어 API
- API
- 시작하기
- sparkSession
- DataFrame
- Transformation
- 액션
- Spark UI
- 종합예제
- 정리.
3. 스파크 기능 둘러보기
- 운영용 앱 실행
- Dataset: 타입 안정성 제공하는 구조적 API
- 구조적 스트리밍
- 머신러닝, 고급분석
- 저수준 API
- sparkR
- 스파크와 에코시스템, 패키지
- 정리.
Part2 구조적 API: DataFrame, SQL, Dataset
4. 구조적 API 개요
- DataFrame과 Dataset
- 스키마
- 구조적 데이터 타입 개요
- 구조적 API 실행 과정
- 정리
5. 구조적 API 기본 연산
- 스키마
- 컬럼과 표현식
- 레코드와 로우
- DataFrame Transformation
- 정리
6. 다양한 데이터 타입 다루기
- where is API?
- 데이터 타입 변환
- boolean
- numeric
- string
- datatime, timestamp
- null
- sort
- 복합 데이터 타입
- json
- 사용자 정의 함수
- Hive UDF
- 정리
7. 집계 연산 (group)
- 집계함수
- 그룹화
- 윈도우 함수
- 그룹화 셋
- 사용자 정의 집계 함수
- 정리
8. 조인(join)
- 표현식
- 타입
- inner join
- outer join
- left outer join
- right outer join
- left semi join
- left anti join
- natural join
- cross join( cartesian join)
- 문제점, 주의 사항
- 수행 방식
- 정리
9. 데이터소스
- 데이터 소스 API구조
- csv
- json
- parquet(파케이)
- orc
- sql db
- text
- 고급 I/O 개념
- 정리
10. 스파크 SQL
- What is SQL
- 빅데이터와 SQL: Apache Hive
- Spark SQL
- sql 쿼리 실행 방법
- catalogue(목록)
- table
- view
- db
- select statement
- 고급 주제
- 다양한 기능
- 정리
11. Dataset
- 사용할 시기
- 생성
- Action
- Transformation
- Join
- 그룹화와 집계(sum)
- 정리
Part3 저수준 API
12. RDD. Resilient Distributed Datasets (회복 가능한 분산 데이터셋)
- What is 저수준 API?
- RDD intro
- RDD 생성
- RDD 다루기
- Transformation
- Action
- 파일 저장하기
- 캐싱
- 체크포인트
- RDD를 시스템 명령으로 전송하기
- 정리
13. RDD 고급 개념
- key-value 형태의 기초 (key-value RDD)
- 집계
- cogroup
- join
- partition control
- 사용자 정의 직렬화(serialization)
- 정리
14. 분산형 공유 변수
- broadcast variable
- accumulator
- 정리
Part4 운영용 애플리케이션
15. 클러스터에서 스파크 실행
- spark app architecture
- life cycle(outside spark)
- life cycle(inside spark)
- 세부 실행 과정
- 정리
16. 스파크 앱 개발
- 앱 작성
- 앱 테스트
- 개발 프로세스
- 앱 시작
- 앱 환경 설정
- 정리
17. 스파크 배포 환경
- 앱 실행을 위한 클러스터 환경
- 클러스터 매니저
- 기타 고려사항
- 정리
18. 모니터링, 디버깅
- 모니터링 범위
- 모니터링 대상
- 스파크 로그
- 스파크 UI
- 디버깅 및 스파크 응급 처치
- 정리
19. 성능 튜닝
- 간접적 성능 향상 기법
- 직적벅 성능 향상 기법
- 정리
Part5 스트리밍
20. 스트림 처리의 기초
- What is 스트림 처리?
- 핵심 설계 개념
- 스파크
- 정리
21. 구조적 스트리밍의 기초
- 기초
- 핵심 개념
- 활용
- transformation
- I/O
- streaming dataset api
- 정리
22. 이벤트 시간과 상태 기반 처리
- 이벤트 시간 처리
- 상태 기반 처리
- 임의적인 상태 기반 처리
- 이벤트 시간 처리의 기본
- 이벤트 시간 윈도우
- 스트림에서 중복 데이터 제거
- 임의적인 상태 기반 처리(확장)
- 정리
23. 운영 환경에서의 구조적 스트리밍
- fault tolerence, 체크포인팅
- 앱 변경
- 메트릭과 모니터링
- 알림
- 스트리밍 리스터를 사용한 고급 모니터링
- 정리
Part6 고급분석과 머신러닝
24. 고급분석과 머신러닝 개요
- 고급 분석 짧은 입문서
- 스파크 고급 분석 툴킷
- 고수준 MLlib 개념
- MLlib 실제 사용
- 모델 배포 방식
- 정리
25. 데이터 전처리 및 피처 엔지니어링
- 사용 목적에 따라 모델 서식 지정
- 변환자
- 전처리 추정자
- 고수준 변환자
- 연속형(continuous) 특징 처리
- 범주형(categorical) 특징 처리
- 텍스트 데이터 변환자
- 특징 조작
- 특징 선택
- 고급 주제
- 정리
26. 분류(Classification)
- 활용 사례
- 분류 유형
- MLlib 분류 모델
- 로지스틱 회귀
- 의사결정트리
- RF, GBT
- Naive Bayes
- 분류와 자동 모델 튜닝을 위한 평가기(Evaluation)
- 세부 평가지표
- 일대다 분류기
- 다층 퍼셉트론
- 정리
27. 회귀(Regression)
- 활용 사례
- MLlib 회귀 모델
- 선형 회귀
- 일반화 선형 회귀
- DT
- RF, GBT
- 고급 방법론
- 평가기와 모델 튜닝 자동화
- 평가지표
- 정리
28. 추천
- 활용 사례
- 교차최소제곱 알고리즘을 이용한 CF 구현
- 추천을 위한 평가기
- 성과 평가지표
- Frequent Pattern 마이닝
- 정리
29. 비지도 학습
- 활용 사례
- 모델 확장성
- k-mean
- binary k-mean
- Gaussian Mixture 모델
- Latent Dirichlet Allocation (NLP)
- 정리
30. 그래프 분석
- 그래프 작성
- 그래프 쿼리
- 모티브(motifs) 찾기
- 그래프 알고리즘
- 정리
31. 딥러닝
- What is 딥러닝?
- 스파크에서 딥러닝 사용하는 법
- 딥러닝 라이브러리
- 딥러닝 파이프라인을 사용한 간단한 예제
- 정리
Part7 에코시스템
32. 언어별 특성: 파이썬(PySpark) 과 R(SparkR, sparklyr)
- PySpark
- R로 스파크 사용하기
- 정리
33. 에코시스템과 커뮤니티
- 스파크 패키지
- 커뮤니티
- 정리