
예상외로 너무 훌륭했던 케이블카
'감성 > Photo' 카테고리의 다른 글
[일본/도쿄] Apartment (0) | 2023.01.24 |
---|---|
[캐나다/밴프] 절경 (0) | 2023.01.23 |
[독일/베를린] 마우어 파크 (0) | 2023.01.17 |
[서울/부암동] 겨울 풍경 (0) | 2023.01.17 |
[서울/도산공원] 퀸 마마 마켓 (1) | 2023.01.17 |
예상외로 너무 훌륭했던 케이블카
[일본/도쿄] Apartment (0) | 2023.01.24 |
---|---|
[캐나다/밴프] 절경 (0) | 2023.01.23 |
[독일/베를린] 마우어 파크 (0) | 2023.01.17 |
[서울/부암동] 겨울 풍경 (0) | 2023.01.17 |
[서울/도산공원] 퀸 마마 마켓 (1) | 2023.01.17 |
■ 탐색적 데이터 분석(EDA : Exploratory Data Analysis)과 시각화
- 쌓여있는 데이터를 기반으로 연국 목적에 맞는 가설을 세우고 데이터를 분석하여 통계적 모형을 만드는 것
- 데이터 분석목적 선정 -> 모집단 정의 -> 표본 추출 -> 자료측정 -> 데이터 수집 -> 통계기법 적용
■ 데이터 탐색 절차
- 데이터 속성 파악 -> 데이터 결측치 확인 -> 데이터 이상치 확인
■ 상관관계 분석
- 두 변수가 연속형 변수인 경우 피어슨 상관계수를 구해서 연관성 정도 파악 가능 (산점도로 시각화)
- 분석하려는 데이터가 순위를 나타내는 순위형 자료인 경우 스피어만 상관계수로 비교
※ 상관계수 구하는 법 마지막 확인 필요
오늘은 여기서 Pass...
■ 데이터 정제
- 결측치(Missing Value), 잡음(Noise), 이상치(Anomaly 혹은 Outlier) 등을 없애기 위해 정제(Cleansing or Refinery)가 필요
■ 빅데이터 정제 처리 작업
- 데이터 변환 : 분석이 용이한 형태로 변환 / ETL(Extract, Transform, Load)을 통합 동일한 형태 변환
· ETL의 주요 기능 : 논리적 데이터 변환, 도메인 검증, 필요 시 기본값 생성, 데이터 요약, 키 값 재구성, 중복 데이터 삭제
- 데이터 교정 : 결측치 변환, 이상치 제거, 노이즈 데이터 교정 등 비정형 데이터 수집 시 반드시 수행하여야 함
- 데이터 통합 : 기존 유사 데이터와의 연계 또는 통합 / Legacy system 데이터와 통합하는 경우 수행
■ 빅데이터 정제처리 방식 및 주요 솔루션
- 대화형 처리 : 대용량 데이터 이용
- 배치 처리 : 주기적인 작업 수행
- 실시간 처리 : 결제, 비정상 카드 사용 등에 대한 데이터 분석
■ 빅데이터 정제/처리 절차
- 세부 계획 수립 -> 자체 구조 및 클라우드 컴퓨팅 고려 -> 최적화된 분석 플랫폼 구축 -> 클라우드 컴퓨터 계정 생성
■ MapReduce를 이용한 데이터 정제/처리
- 분산된 데이터를 키와 값의 리스트로 모으는 맵(Map) 단계와, 이들 리스트에서 원하는 데이터를 찾아 처리하는 리듀스(Reduce) 단계를 실행
■ 데이터 결측값의 종류
- 완전 무작위 결측(Missing Completely At Random) : 관측된 혹은 고나측되지 않은 다른 변수와 아무 연관이 없는 경우
- 무작위 결측(Missing At Random) : 결측된 데이터가 관측된 다른 변수와 연관되어 있지만, 그 자체의 비관측된 값들과 연관이 없는 경우
- 비무작위 결측(Not Missing At Random) : 상기 두 케이스가 아닌 경우
■ 결측치의 대체(보완) 방법
- 평균치 삽입법
- 보삽법 : 시계열 자료의 누락된 데이터 보
- 평가치 추정법
※ 이상치 판정 방법 숙지
■ 변수의 분류
- 독립변수 : 영향을 주는 변수, 실험에서는 조작되는 변수
- 종속변수 : 영향을 받는 변수, 반응변수, 독립변수의 변화에 따라 나타나는 결과의 예측변수
- 통제변수 : 독립-종속 간에 영향을 미칠수 있기에, 실험에서 통제가 필요한 변수
- 매개변수 : 독립/종속 간에 간접적인 영향을 맺도록 하는 변수
- 외생변수 : 독립-종속 간에 상관관계가 있는 것처럼 보이지만 실제적으로는 관계가 없는데 외생변수로 인해 관계가 있어보임, 외생변수의 통제를 위해 가식적 관계를 제거해야 함
- 억압변수 : 독립변수와 종속변수 간에 상관관계가 있는데 없는 것처럼 보이도록 함, 가식적 영관계 라고 함
■ 차원 축소 (Dimensionality Reduction)
- 비지도 학습 기법 중 하나, 분석대상이 되는 여러 변수둘의 주요 정보는 최대한 유지하면서, 데이터 세트 변수의 개수를 줄임
- 주요 알고리즘
· 주성분 분석(PCA, Principal Component Analysis) : 변수들의 공분산 행렬, 상관행렬 이용
· 독립성 분석(ICA, Independent Component Analysis) : 변수들이 서로 독립적이라고 가정
· 특이값 분해(SVD, Singular Value Decomposition) : 일반적인 mxn 차원의 행렬 데이터에서 특이값 추출
· 요인분석(FA, Factor Analysis) : 데이터 내 내재된 구조 해석, 주로 사회과학, 설문조사 등에서 활용
· 다차원 척도법(MDS, Multi-Dimensional Scaling) : 개체들 사이 관계 정보 이용
※ PCA 이론 한 번 더 볼 것
[빅데이터분석기사] 공부 2일차 (0) | 2023.03.12 |
---|---|
[빅데이터분석기사] 공부 1일차 (0) | 2023.03.10 |