- 벡터 공간 표현에서 문헌은 하나의 벡터이고 각 용어는 그 벡터의 원소이며 원소 값은 tf-idf 가중치와 같은 실수형임
- 인접 가설(Contiguity hypothesis)
- 같은 범주에 속하는 문헌은 인접한 지역에 있고 다른 범주에 속하는 문헌과는 서로 겹치지 않음
- 벡터 공간 분류 방법
- Rocchio 분류
- 벡터 공간을 여러 영역으로 나눔
- 각 영역은 하나의 범주를 표현하는 중심 혹은 원형(Prototype)을 가지고 있으며, 중심은 영역에 속하는 모든 문헌의 무게 중심이 됨
- 간단하고 효율적이지만 각 범주가 비슷한 반지름을 가지지 못하면 정밀도가 그다지 좋지 않음
- kNN 혹은 k 최근린 분류
- 실험 문헌에 가장 근접한 k개의 문헌을 선택하고, 이들이 가지는 범주 중에서 가장 많은 범주를 선택함
- 특별한 학습 없이도 바로 분류에 적용할 수 있음
- 다른 방법에 비해 분류 시간이 길어 비효율적임
- 하지만 학습 집합이 아주 크고 복잡한 문제도 잘 처리할 수 있을 뿐 아니라 Rocchio에 비해 좋은 성능을 보임
- 선형 분류기
- 대부분의 문서 분류기에 해당되며, 자질 공간을 영역으로 분할함
- 각 영역은 선형 결정 초평면(Decision hyperplane)으로 분할되며, 편향-분산 반비례 때문에 복잡한 비선형 모델은 선형 모델보다 체계적이지 못함
- 비선형 모델은 제한된 학습 자료에 비해 추정할 인수가 너무 많으며, 잡음 자료에 대해서 오류를 쉽게 범할 수 있음
- 단범주 분류(One-of classification)와 다범주 분류(Any-of classification)
- 한 문헌이 여러 분류들 중에서 정확히 하나의 범주로만 분류되고 다범주 분류는 한 문헌이 여러 범주로 분류할 수 있음
14.2 Rocchio 분류(Rocchio classification)
- 경계를 정의하기 위해 중심(Centroids)을 정의함
- 범주의 중심은 그 범주에 속하는 문헌 벡터의 평균 혹은 중심임
- 범주 영역의 경계는 초평면이며, 분류 규칙은 한 점이 속하는 영역에 따라서 그 점의 범주를 결정함
- Rocchio 적합성 피드백과 밀접한 관계를 가지고 있으며, 적합성 피드백에서 관련 문헌을 평균하는 것은 rocchio 분류에서 문헌의 범주 중심을 구하는 것과 같음
- 문서 분류에서 질의는 없기 때문에 Rocchio 분류에서 Rocchio, 적합성 피드백에 반영된 질의 부분은 고려하지 않음
- Rocchio는 다봉 범주(Multimodal class)는 잘 분류하지 못함
14.3 k 최근린(k nearest neighbor) 혹은 kNN 분류(kNN classification)
- Rocchio와 달리 결정 경계가 지역적으로 결정됨
- kNN은 가장 가까운 k개의 문헌 들이 가장 많이 가지는 범주를 그 문헌의 범주로 정하며 k는 인수임
- 1NN에서 결정 경계는 Voronoi 분할(voronoi tessellation)처럼 여러 개의 볼록 다각형이 서로 붙여진 것과 같은 모양임
- 각 세포는 가장 가까이에 있는 점들로 구성되며, 문서 분류에서 각 세포는 문헌을 나타냄
- 인수 k는 대개 경험적으로 결정되며, 동수가 되지 않도록 홀수로 함
- 범주를 결정하는 방법
- 확률을 이용한 kNN 분류 알고리즘
- c에 속할 확률(k개의 최근린 문헌이 k에 속할 비율로 추정)
- 가중치 투표 방법
- 실험 문헌과 학습 문헌 사이의 코사인 유사도를 가중치로 이용하여, 실험 문헌 d에 대해서 가장 높은 score(c, d)를 가지는 c로 분류함
- 유사도로 가중치를 주는 것이 간단하게 투표하는 것보다 더 정확함
- 사례 기반 학습(Memory-based learning)
- Rocchio와 NB에서처럼 인수를 추정하지 않으며 kNN은 학습 집합에 있는 모든 예제를 기억하고 실험 문헌과 학습 집합에 있는 문헌들 사이의 거리를 비교함
- 일반적으로 기계 학습에서 학습 자료가 많으면 많을 수록 좋지만, kNN은 학습 문헌이 많을 수록 분류의 효율성(특히 속도)이 떨어질 수 있음
14.4 선형 대 비선형 분류기
- 선형 분류기
- Naive Bayes와 Rocchio 분류기
- 수많은 선형 분류 경계가 존재할 수 있지만 잡음 문헌에 의해 분류 오류가 발생되기 쉬움
- 비선형 분류기
- kNN
14.5 두 범주 이상의 분류
- 다범주 분류는 서로 배타적이지 않은 범주의 분류임
- 단범주 분류는 서로 배타적임
- J > 2 범주에 대한 분류기의 성능을 평가하는 가장 좋은 도구는 혼동 행렬(Confusion matrix)임
14.6 편향-분산 반비례
- 오류율이 0인 비선형 분류기는 존재하지만 선형 분류기는 존재하지 않음
- 하지만 무조건 비선형 분류기만을 이용하는 것이 답이라고 할 수는 없음
- 많은 비선형 모델은 선형 모델을 포함
- 선형 모델보다 덜 복잡한 비선형 모델이 있음
- 학습 복잡도는 분류기의 성질이 아님
- 편향(Bias)
- 학습 방법이 일정하게 틀린 분류기를 생성한다면 편향이 높음
- 다음의 조건에서 오류가 평균 0에 가까운 경우 편향이 적음
- 분류기가 일정하게 답을 맞힘
- 다른 학습 집합으로 학습하여 다른 문헌에서 오류를 발생시킴
- 다른 학습 집합으로 학습하여 같은 문헌에서 긍정 오류와 부정 오류를 발생시킴
- 분산(Variance)
- 학습된 분류기의 예측의 변화
- 다른 학습 집합에 따라 아주 다른 학습기가 생성된다면 분산이 큰 것
- 과적합(Overfitting) 현상이 일어나기 쉬움
- 과적합 현상으로 학습은 잡음으로부터도 배우므로 MSE를 증가시키고 높은 분산을 가지게 됨
- 학습 집합에 따라서 학습기에 큰 영향을 주지 않는다면 분산이 작은 것
- kNN과 같은 비선형 방법은 분산이 높음
- 학습 방법의 모델 복잡도(Model complexity) 혹은 기억 용량(Memory capacity)으로 생각할 수 있음
- 간단하게 “학습오류 = 편향 + 분산”이라 할 수 있음
- 편향과 분산을 동시에 최소화할 수는 없으며, 편향-분산 반비례(Bias-variance tradeoff)에서 적절한 가중치를 주어 선택할 수 있도록 해야함
- 작은 분산은 모든 학습 집합에서 좋은 분류기를 안정적으로 생성함
- 작은 편향은 매우 다른 결정 경계를 가지는 분류 문제를 잘 학습할 수 있음
'Study > Information Retrieval' 카테고리의 다른 글
정보검색론 공부 - 평면 군집화 (0) | 2019.01.23 |
---|---|
정보검색론 공부 - 지지 벡터 기계와 기계 학습 (0) | 2019.01.23 |
정보검색론 공부 - 문서 분류와 Naive Bayes (0) | 2019.01.23 |
정보검색론 공부 - 정보 검색을 위한 언어 모델 (0) | 2019.01.23 |
정보검색론 공부 - 확률 정보 검색 (0) | 2019.01.23 |