전체 글 37

7장: Cluster

- 군집화 - 군집화 알고리즘 K-means, Mean shift, Gaussian mixture model, DBSCAN 1. K-means Clustering 군집 중심점(Centroid) 기반 클러스트링 각 데이터들은 가장 가까운 중심점에 소속된다. 중심점이 각 소속 데이터들의 평균으로 이동한다. 다시, 각 데이터들은 이동된 중심점 기준으로 가장 가까운 중심점에 소속 중심점을 이동했지만 중심점 소속 변경이 없으면 군집화 완료 장점: 일반적인 군집화에서 가장 많이 활용됨, 대용량 데이터에도 활용 단점: 거리기반 알고리즘이어셔, 속성의 개수가 많으면 정확도 떨어짐 이상치 데이터에 취약 - 사이킷런 KMeans 클래스 - 군집 평가: 실루엣 분석 각 군집간 거리가 얼마나 효율적으로 분리돼 있는가? 개별 ..

8장: Text Analysis

- NLP vs 텍스트 분석 - 텍스트 분석 주요 영역 텍스트 분류(어떤 카테고리에 속하나) 감성 분석(텍스트에서 나타나는 주관적인 기분 등의 요소를 분석) 텍스트 요약 텍스트 군집화와 유사도 측정 - 텍스트 문석 머신러닝 수행 프로세스 데이터 사전가공-> Feature Vectorization -> ML 학습/예측/평가 - 파이썬 기반의 NLP, 텍스트 분석 패키지 NLTK, Gensim(토픽모델링), SpaCy - 텍스트 전처리: 텍스트 정규화 클렌징: html, xml 태그나 특정 기호 제거 토큰화: 문장/ 단어 토큰화 필터링/ 스톱워드 제거/ 철자 수정: 관사 제거 Stemming/ Lemmatization: 단어 원형 추출 - N-Gram 문장을 개별 단어로 토큰화 하면 문맥적인 의미가 무시됨 ..

Final Project1: Simple Arithmetic Calculator

- 내용: 산술연산 기능을 수행하는 Simple Arithmetic Calculator 를 구현한다 . 이 프로그램의 입력은 다수의 산술연산식으로 구성된 input.txt 파일로 주어지며 , 프로그램은 각 수식에 대한 연산을 수행하여 결과를 output.txt 파일에 저장한다 - 연산 기능 연산자"+,-,*" 를 사용하며 , 수식의 마지막에는 = 표기가 들어가고 , 띄어쓰기는 존재하지 않음 곱셈은 덧셈과 뺄셈에 우선하여 적용 입력 가능한 각 수의 범위 : 2 자리 자연수 출력 결과값의 범위 : 8 자리 정수 - 코드: https://github.com/bonapark00/Computer-System/blob/main/final1.asm GitHub - bonapark00/Computer-System Co..

Final Project2: Selection Sort & Bubble Sort by ARM

- 과제명 : 두 가지 기본 탐색 알고리즘인 selection sort 와 bubble sort 를 ARM assembly program 으로 설계 구현하고 , 주어진 데이터 입력에 대해 두 가지 방법의 예측 수행 시 간을 측정 비교 - 내용: 주어진 입력 데이터에 대하여 selection sort 와 bubble sort 를 수행하는 ARM assembly program 설계 과제 로 먼저 프로그램 Template 내에 주어진 40 개의 정수 데이 터 어레이에 대하여 두 가지 정렬 방법을 수행한 후 그 결과를 데이터 어레이에 각각 저장하고 각 sorting 알고리즘 시작부에서 종료시까지 수행된 총 명령어의 개수를 count 함 . 프로그램 제출은 주어진 Template.S 파일 골격을 이용하여 해당 부..

5장: Regression

- 회귀 데이터의 값이 평균과 같은 일정한 값으로 돌아가려는 경향 (아무리 키가 큰 집안의 아이도 무한정 키가 커지지는 x) 회귀: 여러개의 독립변수와 종속변수 간의 상관관계를 모델링하는 기법을 통칭 머신러닝에서 회귀의 핵심: 최적의 회귀 계수를 찾아내는 것! (W1, W2, ..) 선형회귀 vs 비선형회귀: 회귀계수의 제곱여부! (독립변수 x**2는 상관없음!) - 분류 vs 회귀 분류: 결과 값이 category값(이산적인 값으로) 회귀: 숫자값(연속값) [지도학습] 정답이 있는 데이터를 활용해 데이터를 학습시키는 것 대표적으로 분류(결과가 카테고리로 나뉠 때), 회귀(결과값이 실수) [비지도학습] 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화하여 새로운 데이터에 대한 결과를 예측하는 법 대표적으..