'Study'에 해당되는 글 21건

 

 

  • 벡터 공간 표현에서 문헌은 하나의 벡터이고 용어는 벡터의 원소이며 원소 값은 tf-idf 가중치와 같은 실수형임
  • 인접 가설(Contiguity hypothesis)
    • 같은 범주에 속하는 문헌은 인접한 지역에 있고 다른 범주에 속하는 문헌과는 서로 겹치지 않음
  • 벡터 공간 분류 방법
    • Rocchio 분류
      • 벡터 공간을 여러 영역으로 나눔
      • 영역은 하나의 범주를 표현하는 중심 혹은 원형(Prototype) 가지고 있으며, 중심은 영역에 속하는 모든 문헌의 무게 중심이
      • 간단하고 효율적이지만 범주가 비슷한 반지름을 가지지 못하면 정밀도가 그다지 좋지 않음
    • kNN 혹은 k 최근린 분류
      • 실험 문헌에 가장 근접한 k개의 문헌을 선택하고, 이들이 가지는 범주 중에서 가장 많은 범주를 선택함
      • 특별한 학습 없이도 바로 분류에 적용할 있음
      • 다른 방법에 비해 분류 시간이 길어 비효율적임
      • 하지만 학습 집합이 아주 크고 복잡한 문제도 처리할 있을 아니라 Rocchio 비해 좋은 성능을 보임
  • 선형 분류기
    • 대부분의 문서 분류기에 해당되며, 자질 공간을 영역으로 분할함
    • 영역은 선형 결정 초평면(Decision hyperplane)으로 분할되며, 편향-분산 반비례 때문에 복잡한 비선형 모델은 선형 모델보다 체계적이지 못함
      • 비선형 모델은 제한된 학습 자료에 비해 추정할 인수가 너무 많으며, 잡음 자료에 대해서 오류를 쉽게 범할 있음
  • 단범주 분류(One-of classification) 다범주 분류(Any-of classification)
    • 문헌이 여러 분류들 중에서 정확히 하나의 범주로만 분류되고 다범주 분류는 문헌이 여러 범주로 분류할 있음
 

14.2 Rocchio 분류(Rocchio classification)

  • 경계를 정의하기 위해 중심(Centroids) 정의함
  • 범주의 중심은 범주에 속하는 문헌 벡터의 평균 혹은 중심임
  • 범주 영역의 경계는 초평면이며, 분류 규칙은 점이 속하는 영역에 따라서 점의 범주를 결정함
  • Rocchio 적합성 피드백과 밀접한 관계를 가지고 있으며, 적합성 피드백에서 관련 문헌을 평균하는 것은 rocchio 분류에서 문헌의 범주 중심을 구하는 것과 같음
    • 문서 분류에서 질의는 없기 때문에 Rocchio 분류에서 Rocchio, 적합성 피드백에 반영된 질의 부분은 고려하지 않음
  • Rocchio 다봉 범주(Multimodal class) 분류하지 못함
 

14.3 k 최근린(k nearest neighbor) 혹은 kNN 분류(kNN classification)

  • Rocchio 달리 결정 경계가 지역적으로 결정됨
  • kNN 가장 가까운 k개의 문헌 들이 가장 많이 가지는 범주를 문헌의 범주로 정하며 k 인수임
  • 1NN에서 결정 경계는 Voronoi 분할(voronoi tessellation)처럼 여러 개의 볼록 다각형이 서로 붙여진 것과 같은 모양임
    • 세포는 가장 가까이에 있는 점들로 구성되며, 문서 분류에서 세포는 문헌을 나타냄
  • 인수 k 대개 경험적으로 결정되며, 동수가 되지 않도록 홀수로
  • 범주를 결정하는 방법
    • 확률을 이용한 kNN 분류 알고리즘
      • c 속할 확률(k개의 최근린 문헌이 k 속할 비율로 추정)
    • 가중치 투표 방법
      • 실험 문헌과 학습 문헌 사이의 코사인 유사도를 가중치로 이용하여, 실험 문헌 d 대해서 가장 높은 score(c, d) 가지는 c 분류함
      • 유사도로 가중치를 주는 것이 간단하게 투표하는 것보다 정확함
  • 사례 기반 학습(Memory-based learning)
    • Rocchio NB에서처럼 인수를 추정하지 않으며 kNN 학습 집합에 있는 모든 예제를 기억하고 실험 문헌과 학습 집합에 있는 문헌들 사이의 거리를 비교함
    • 일반적으로 기계 학습에서 학습 자료가 많으면 많을 수록 좋지만, kNN 학습 문헌이 많을 수록 분류의 효율성(특히 속도) 떨어질 있음
 

14.4 선형 비선형 분류기

  • 선형 분류기
    • Naive Bayes Rocchio 분류기
    • 수많은 선형 분류 경계가 존재할 있지만 잡음 문헌에 의해 분류 오류가 발생되기 쉬움
  • 비선형 분류기
    • kNN
 

14.5 범주 이상의 분류

  • 다범주 분류는 서로 배타적이지 않은 범주의 분류임
    • 단범주 분류는 서로 배타적임
  • J > 2 범주에 대한 분류기의 성능을 평가하는 가장 좋은 도구는 혼동 행렬(Confusion matrix)
 

14.6 편향-분산 반비례

  • 오류율이 0 비선형 분류기는 존재하지만 선형 분류기는 존재하지 않음
  • 하지만 무조건 비선형 분류기만을 이용하는 것이 답이라고 수는 없음
    • 많은 비선형 모델은 선형 모델을 포함
    • 선형 모델보다 복잡한 비선형 모델이 있음
    • 학습 복잡도는 분류기의 성질이 아님
  • 편향(Bias)
    • 학습 방법이 일정하게 틀린 분류기를 생성한다면 편향이 높음
    • 다음의 조건에서 오류가 평균 0 가까운 경우 편향이 적음
      • 분류기가 일정하게 답을 맞힘
      • 다른 학습 집합으로 학습하여 다른 문헌에서 오류를 발생시킴
      • 다른 학습 집합으로 학습하여 같은 문헌에서 긍정 오류와 부정 오류를 발생시킴
  • 분산(Variance)
    • 학습된 분류기의 예측의 변화
    • 다른 학습 집합에 따라 아주 다른 학습기가 생성된다면 분산이
      • 과적합(Overfitting) 현상이 일어나기 쉬움
      • 과적합 현상으로 학습은 잡음으로부터도 배우므로 MSE 증가시키고 높은 분산을 가지게
    • 학습 집합에 따라서 학습기에 영향을 주지 않는다면 분산이 작은
    • kNN 같은 비선형 방법은 분산이 높음
    • 학습 방법의 모델 복잡도(Model complexity) 혹은 기억 용량(Memory capacity)으로 생각할 있음
  • 간단하게학습오류 = 편향 + 분산”이라 있음
    • 편향과 분산을 동시에 최소화할 수는 없으며, 편향-분산 반비례(Bias-variance tradeoff)에서 적절한 가중치를 주어 선택할 있도록 해야함
    • 작은 분산은 모든 학습 집합에서 좋은 분류기를 안정적으로 생성함
    • 작은 편향은 매우 다른 결정 경계를 가지는 분류 문제를 학습할 있음

 

 

 

블로그 이미지

나뷜나뷜

,