Study/파이썬 머신러닝 완벽가이드 4

4장: Classification

[4강: 분류] - 균일도 기반 규칙 조건 - 정보 균일도 측정 방법 1) 정보 이득 ..앤트로피 개념 정보이득 지수 = 1-엔트로피 지수 2) 지니계수: 불평등 지수 지니계수 낮을수록 균일한 데이터 - 결정트리의 규칙노드 생성 프로세스 If true/ else - 결정트리 장점 쉽고 직관적 - 결정트리 단점 과적합(overfitting) sol) 트리크기를 사전에 제한 - 결정트리 주요 hyperparameter - max_depth, max_features.. - Graphviz이용한 결정트리 모델의 시각화(실제 나무 모양 그림으로) - 각 노드에는 피처의 규칙 조건 gini samples: 현 규칙에 해당하는 데이터 건수 value: 클래스 값 기반의 데이터 건수 ex) [41,4,10] 이면 해당..

7장: Cluster

- 군집화 - 군집화 알고리즘 K-means, Mean shift, Gaussian mixture model, DBSCAN 1. K-means Clustering 군집 중심점(Centroid) 기반 클러스트링 각 데이터들은 가장 가까운 중심점에 소속된다. 중심점이 각 소속 데이터들의 평균으로 이동한다. 다시, 각 데이터들은 이동된 중심점 기준으로 가장 가까운 중심점에 소속 중심점을 이동했지만 중심점 소속 변경이 없으면 군집화 완료 장점: 일반적인 군집화에서 가장 많이 활용됨, 대용량 데이터에도 활용 단점: 거리기반 알고리즘이어셔, 속성의 개수가 많으면 정확도 떨어짐 이상치 데이터에 취약 - 사이킷런 KMeans 클래스 - 군집 평가: 실루엣 분석 각 군집간 거리가 얼마나 효율적으로 분리돼 있는가? 개별 ..

8장: Text Analysis

- NLP vs 텍스트 분석 - 텍스트 분석 주요 영역 텍스트 분류(어떤 카테고리에 속하나) 감성 분석(텍스트에서 나타나는 주관적인 기분 등의 요소를 분석) 텍스트 요약 텍스트 군집화와 유사도 측정 - 텍스트 문석 머신러닝 수행 프로세스 데이터 사전가공-> Feature Vectorization -> ML 학습/예측/평가 - 파이썬 기반의 NLP, 텍스트 분석 패키지 NLTK, Gensim(토픽모델링), SpaCy - 텍스트 전처리: 텍스트 정규화 클렌징: html, xml 태그나 특정 기호 제거 토큰화: 문장/ 단어 토큰화 필터링/ 스톱워드 제거/ 철자 수정: 관사 제거 Stemming/ Lemmatization: 단어 원형 추출 - N-Gram 문장을 개별 단어로 토큰화 하면 문맥적인 의미가 무시됨 ..

5장: Regression

- 회귀 데이터의 값이 평균과 같은 일정한 값으로 돌아가려는 경향 (아무리 키가 큰 집안의 아이도 무한정 키가 커지지는 x) 회귀: 여러개의 독립변수와 종속변수 간의 상관관계를 모델링하는 기법을 통칭 머신러닝에서 회귀의 핵심: 최적의 회귀 계수를 찾아내는 것! (W1, W2, ..) 선형회귀 vs 비선형회귀: 회귀계수의 제곱여부! (독립변수 x**2는 상관없음!) - 분류 vs 회귀 분류: 결과 값이 category값(이산적인 값으로) 회귀: 숫자값(연속값) [지도학습] 정답이 있는 데이터를 활용해 데이터를 학습시키는 것 대표적으로 분류(결과가 카테고리로 나뉠 때), 회귀(결과값이 실수) [비지도학습] 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화하여 새로운 데이터에 대한 결과를 예측하는 법 대표적으..