'information retrieval'에 해당되는 글 20건

 

 

  • 비지도 학습(Unsupervised learning)
    • 문헌을 범주로 분류하는 전문가가 없음
  • 평면 군집화(Flat clustering)
    • 군집화 결과가 평면적으로만 분리되어 있으며 어떤 형태의 구조를 가지지는 않음
  • 계층 군집화(Hierarchic clustering)
    • 군집화 결과가 계층 구조를 가짐
 

16.1 정보 검색의 군집화

  • 군집 가설(Cluster hypothesis)
    • 같은 군집에 있는 문헌들은 정보 요구에 대한 적합성이 비슷함
 

16.2 문제 정의

  • 평면적 경군집화의 요소
    • 문헌 집합
    • 원하는 군집
    • 군집의 질을 평가하는 목적 함수(Objective function)
  • 경군집하는 문헌이 하나 혹은 이상의 군집에 완전히 속할 있음
  • 분할 군집화(Partitional clustering)
    • 문헌은 정확하게 군집에만 속함
    • 그러나 분할 계층 군집화에서 군집에 속한 모든 문헌은 군집의 부모 군집에도 속하므로, 경군집화도 정의에 따라 여러 군집에 속할 있음
  • 경군집화(1 혹은 0) 연군집화(임의의 양수) 차이는 소속 함수 값에 있음
  • 완전 군집화(Exhaustive clustering)
    • 문헌이 군집에 속하는 경우
 

16.3 군집화 평가

  • 내부 기준(Internal criterion)
    • 군집 내의 유사도는 최대가 되게 하고, 군집 간의 유사도는 최소가 되도록 하는
  • 외부 기준(External criterion)
    • 군집화 결과가 평가용 벤치마크와 얼마나 맞는지를 평가하는
    • 순도(Purity)
      • 일반적으로 군집이 많으면 순도가 높음
      • 순도는 군집의 수와 군집의 질이 반비례하여 이용되지 않음
    • 정규화된 상호 정보(NMI, Normalized Mutual Information)
      • 정보 이론에 기반을 척도
      • 긍정 정답이면 비슷한 문헌이 같은 군집에 속하고, 부정 정답이면 비슷하지 않은 문헌이 다른 군집에 속함
      • 하지만 여전히 긍정 오류와 부정 오류에서 오류를 범할 있음
    • Rand 지수(Rand index)
      • 군집화 과정에서 긍정 오류와 부정 오류에 불리하게
    • F-척도(F measure)
      • 긍정 오류와 부정 오류에 대해 가중치를
 

16.4 K-means

  • 가장 중요한 평면 군집화 알고리즘으로, 문헌들과 문헌이 속한 군집의 중심과의 평균 Euclidean 거리를 최소화하는 것을 목적으로
  • 잔차제곱합(RSS, Residual Sum of Squares)
    • 중심이 군집에 속한 문헌을 얼마나 표현하는가를 나타내는 척도
    • RSS K-means 목적 함수로 이를 최소화해야
  • 처음 임의의 K 문헌을 선택하여 초기 중심으로 군집 씨앗(Seed) 선택함
    • 반복 종료 조건
      • 미리 정한 반복 횟수 I 도달할 때까지 반복함
      • 문헌이 속한 군집이 이상 변하지 않을 때까지 반복함
      • 중심이 이상 변하지 않을 때까지 반복함
      • RSS 임계값 이하로 떨어질 때까지 반복함
      • RSS 감소폭이 임계값 이하로 떨어질 때까지 반복함
  • 예외 자료(Outlier) 경우 낮은 RSS 가지더라도 단문헌 군집(Singleton cluster) 있음
  • 군집 씨앗 선택 규칙
    • 군집 씨앗으로 선택된 문헌이 예외 자료일 경우에는 이를 배체함
    • 여러 군집 씨앗으로 시작해서 군집화를 구성하고 이들 가장 적합한(평가 척도의 값이 낮은) 군집을 선택함
    • 계층 군집화와 같은 다른 방법을 통해서 군집 씨앗을 구함
  • 군집 기수를 정하기 위한 목적 함수
    • 왜곡(Distortion)
      • 문헌들이 원래의 군집으로부터 얼마나 많이 벗어나는가를 측정
    • 모델 복잡도(Model complexity)
      • 보통 군집의 수나 군집 수에 대한 함수임
  • AIC(Akaike information Criterion)
    • 모델 복잡도와 왜곡의 반비례를 정보 이론적으로 측정하는 방법
 

16.5 모델 기반 군집화

  • 모델 기반 군집화(Model based clustering)
    • 모델로 자료를 생성하고 생성된 자료로부터 모델을 복원한다고 가정함
    • 자료로부터 복원된 모델은 군집과 문헌 할당을 정의함
    • 모델 인수를 추정하는 일반적인 기준은 최대 우도이며, 최대 우도 기준은 자료 D 생성하는 로그 우도(Log likelihood) 최대로하는 인수를 선택하는 것임
  • EM 알고리즘(Expectation Maximization algorithm)
    • 모델 기반 군집화에서 가장 일반적으로 사용되는 알고리즘
    • 기대값 계산 단계(Expectation step) 최대화 단계(Maximization step) 번갈아가면서 동작함(K-means 비슷함)

 

 

 

블로그 이미지

나뷜나뷜

,