Article Image

Article Image

스파크 목차 정리

Blog Logo

JaehunSim

on 26 Dec 2018 • 0 Comments

read

공부를 시작할땐 목차부터

Part1 빅데이터와 스파크

1. 아파치 스파크란

철학
등장 배경
역사
현재와 미래
실행
정리

2. 스파크 간단히 살펴보기

기본 아키텍처
다양한 언어 API
API
시작하기
sparkSession
DataFrame
Transformation
액션
Spark UI
종합예제
정리.

3. 스파크 기능 둘러보기

운영용 앱 실행
Dataset: 타입 안정성 제공하는 구조적 API
구조적 스트리밍
머신러닝, 고급분석
저수준 API
sparkR
스파크와 에코시스템, 패키지
정리.

Part2 구조적 API: DataFrame, SQL, Dataset

4. 구조적 API 개요

DataFrame과 Dataset
스키마
구조적 데이터 타입 개요
구조적 API 실행 과정
정리

5. 구조적 API 기본 연산

스키마
컬럼과 표현식
레코드와 로우
DataFrame Transformation
정리

6. 다양한 데이터 타입 다루기

where is API?
데이터 타입 변환
boolean
numeric
string
datatime, timestamp
null
sort
복합 데이터 타입
json
사용자 정의 함수
Hive UDF
정리

7. 집계 연산 (group)

집계함수
그룹화
윈도우 함수
그룹화 셋
사용자 정의 집계 함수
정리

8. 조인(join)

표현식
타입
inner join
outer join
left outer join
right outer join
left semi join
left anti join
natural join
cross join( cartesian join)
문제점, 주의 사항
수행 방식
정리

9. 데이터소스

데이터 소스 API구조
csv
json
parquet(파케이)
orc
sql db
text
고급 I/O 개념
정리

10. 스파크 SQL

What is SQL
빅데이터와 SQL: Apache Hive
Spark SQL
sql 쿼리 실행 방법
catalogue(목록)
table
view
db
select statement
고급 주제
다양한 기능
정리

11. Dataset

사용할 시기
생성
Action
Transformation
Join
그룹화와 집계(sum)
정리

Part3 저수준 API

12. RDD. Resilient Distributed Datasets (회복 가능한 분산 데이터셋)

What is 저수준 API?
RDD intro
RDD 생성
RDD 다루기
Transformation
Action
파일 저장하기
캐싱
체크포인트
RDD를 시스템 명령으로 전송하기
정리

13. RDD 고급 개념

key-value 형태의 기초 (key-value RDD)
집계
cogroup
join
partition control
사용자 정의 직렬화(serialization)
정리

14. 분산형 공유 변수

broadcast variable
accumulator
정리

Part4 운영용 애플리케이션

15. 클러스터에서 스파크 실행

spark app architecture
life cycle(outside spark)
life cycle(inside spark)
세부 실행 과정
정리

16. 스파크 앱 개발

앱 작성
앱 테스트
개발 프로세스
앱 시작
앱 환경 설정
정리

17. 스파크 배포 환경

앱 실행을 위한 클러스터 환경
클러스터 매니저
기타 고려사항
정리

18. 모니터링, 디버깅

모니터링 범위
모니터링 대상
스파크 로그
스파크 UI
디버깅 및 스파크 응급 처치
정리

19. 성능 튜닝

간접적 성능 향상 기법
직적벅 성능 향상 기법
정리

Part5 스트리밍

20. 스트림 처리의 기초

What is 스트림 처리?
핵심 설계 개념
스파크
정리

21. 구조적 스트리밍의 기초

기초
핵심 개념
활용
transformation
I/O
streaming dataset api
정리

22. 이벤트 시간과 상태 기반 처리

이벤트 시간 처리
상태 기반 처리
임의적인 상태 기반 처리
이벤트 시간 처리의 기본
이벤트 시간 윈도우
스트림에서 중복 데이터 제거
임의적인 상태 기반 처리(확장)
정리

23. 운영 환경에서의 구조적 스트리밍

fault tolerence, 체크포인팅
앱 변경
메트릭과 모니터링
알림
스트리밍 리스터를 사용한 고급 모니터링
정리

Part6 고급분석과 머신러닝

24. 고급분석과 머신러닝 개요

고급 분석 짧은 입문서
스파크 고급 분석 툴킷
고수준 MLlib 개념
MLlib 실제 사용
모델 배포 방식
정리

25. 데이터 전처리 및 피처 엔지니어링

사용 목적에 따라 모델 서식 지정
변환자
전처리 추정자
고수준 변환자
연속형(continuous) 특징 처리
범주형(categorical) 특징 처리
텍스트 데이터 변환자
특징 조작
특징 선택
고급 주제
정리

26. 분류(Classification)

활용 사례
분류 유형
MLlib 분류 모델
로지스틱 회귀
의사결정트리
RF, GBT
Naive Bayes
분류와 자동 모델 튜닝을 위한 평가기(Evaluation)
세부 평가지표
일대다 분류기
다층 퍼셉트론
정리

27. 회귀(Regression)

활용 사례
MLlib 회귀 모델
선형 회귀
일반화 선형 회귀
DT
RF, GBT
고급 방법론
평가기와 모델 튜닝 자동화
평가지표
정리

28. 추천

활용 사례
교차최소제곱 알고리즘을 이용한 CF 구현
추천을 위한 평가기
성과 평가지표
Frequent Pattern 마이닝
정리

29. 비지도 학습

활용 사례
모델 확장성
k-mean
binary k-mean
Gaussian Mixture 모델
Latent Dirichlet Allocation (NLP)
정리

30. 그래프 분석

그래프 작성
그래프 쿼리
모티브(motifs) 찾기
그래프 알고리즘
정리

31. 딥러닝

What is 딥러닝?
스파크에서 딥러닝 사용하는 법
딥러닝 라이브러리
딥러닝 파이프라인을 사용한 간단한 예제
정리

Part7 에코시스템

32. 언어별 특성: 파이썬(PySpark) 과 R(SparkR, sparklyr)

PySpark
R로 스파크 사용하기
정리

33. 에코시스템과 커뮤니티

스파크 패키지
커뮤니티
정리

부록 A 스파크 설치 및 실행

부록 B 더블린 원정대: 스파크 서밋 2017 더블린 참관기

Written by

Blog Logo

JaehunSim

Published 26 Dec 2018

Supported by

Image

JaehunSim's Blog

JaehunSim's blog

Back to Overview