[빅데이터분석기사] 공부 3일차
■ 데이터 정제
- 결측치(Missing Value), 잡음(Noise), 이상치(Anomaly 혹은 Outlier) 등을 없애기 위해 정제(Cleansing or Refinery)가 필요
■ 빅데이터 정제 처리 작업
- 데이터 변환 : 분석이 용이한 형태로 변환 / ETL(Extract, Transform, Load)을 통합 동일한 형태 변환
· ETL의 주요 기능 : 논리적 데이터 변환, 도메인 검증, 필요 시 기본값 생성, 데이터 요약, 키 값 재구성, 중복 데이터 삭제
- 데이터 교정 : 결측치 변환, 이상치 제거, 노이즈 데이터 교정 등 비정형 데이터 수집 시 반드시 수행하여야 함
- 데이터 통합 : 기존 유사 데이터와의 연계 또는 통합 / Legacy system 데이터와 통합하는 경우 수행
■ 빅데이터 정제처리 방식 및 주요 솔루션
- 대화형 처리 : 대용량 데이터 이용
- 배치 처리 : 주기적인 작업 수행
- 실시간 처리 : 결제, 비정상 카드 사용 등에 대한 데이터 분석
■ 빅데이터 정제/처리 절차
- 세부 계획 수립 -> 자체 구조 및 클라우드 컴퓨팅 고려 -> 최적화된 분석 플랫폼 구축 -> 클라우드 컴퓨터 계정 생성
■ MapReduce를 이용한 데이터 정제/처리
- 분산된 데이터를 키와 값의 리스트로 모으는 맵(Map) 단계와, 이들 리스트에서 원하는 데이터를 찾아 처리하는 리듀스(Reduce) 단계를 실행
■ 데이터 결측값의 종류
- 완전 무작위 결측(Missing Completely At Random) : 관측된 혹은 고나측되지 않은 다른 변수와 아무 연관이 없는 경우
- 무작위 결측(Missing At Random) : 결측된 데이터가 관측된 다른 변수와 연관되어 있지만, 그 자체의 비관측된 값들과 연관이 없는 경우
- 비무작위 결측(Not Missing At Random) : 상기 두 케이스가 아닌 경우
■ 결측치의 대체(보완) 방법
- 평균치 삽입법
- 보삽법 : 시계열 자료의 누락된 데이터 보
- 평가치 추정법
※ 이상치 판정 방법 숙지
■ 변수의 분류
- 독립변수 : 영향을 주는 변수, 실험에서는 조작되는 변수
- 종속변수 : 영향을 받는 변수, 반응변수, 독립변수의 변화에 따라 나타나는 결과의 예측변수
- 통제변수 : 독립-종속 간에 영향을 미칠수 있기에, 실험에서 통제가 필요한 변수
- 매개변수 : 독립/종속 간에 간접적인 영향을 맺도록 하는 변수
- 외생변수 : 독립-종속 간에 상관관계가 있는 것처럼 보이지만 실제적으로는 관계가 없는데 외생변수로 인해 관계가 있어보임, 외생변수의 통제를 위해 가식적 관계를 제거해야 함
- 억압변수 : 독립변수와 종속변수 간에 상관관계가 있는데 없는 것처럼 보이도록 함, 가식적 영관계 라고 함
■ 차원 축소 (Dimensionality Reduction)
- 비지도 학습 기법 중 하나, 분석대상이 되는 여러 변수둘의 주요 정보는 최대한 유지하면서, 데이터 세트 변수의 개수를 줄임
- 주요 알고리즘
· 주성분 분석(PCA, Principal Component Analysis) : 변수들의 공분산 행렬, 상관행렬 이용
· 독립성 분석(ICA, Independent Component Analysis) : 변수들이 서로 독립적이라고 가정
· 특이값 분해(SVD, Singular Value Decomposition) : 일반적인 mxn 차원의 행렬 데이터에서 특이값 추출
· 요인분석(FA, Factor Analysis) : 데이터 내 내재된 구조 해석, 주로 사회과학, 설문조사 등에서 활용
· 다차원 척도법(MDS, Multi-Dimensional Scaling) : 개체들 사이 관계 정보 이용
※ PCA 이론 한 번 더 볼 것