11.1 기본 확률 이론 복습

  • 변수 A 사건(모든 가능한 결과 공간의 부분집합) 표시함
    • 확률 변수(Random variable)
      • 부분집합을 표시할 있으며, 관찰 결과로부터 실수로의 함수임
    • 연쇄 법칙(Chain rule)
    • 분할 법칙(Partition rule)
    • Bayes 규칙(Bayes’ rule)
    • 사전 확률(Prior probability)
    • 사후 확률(Posterior probability)
    • 우도(Likelihood)
    • 대비 확률(Odds)
      • 확률이 어떻게 변화하는가에 대한 일종의 승수(Multiplier)
 

11.2 확률 순위화 원리

  • 확률 순위화 원리(PRP, Probability Ranking Principle)
    • 확률 모델에서 문헌을 순위화하는 가장 자명한 방법으로 문헌이 주어진 정보 요구에 대하여 적합할 확률 P(R = 1 | d,q) 추정한 값에 따라서 순위화하는
  • 1/0 손실(1/0 loss)
    • 부적합 문헌 1개를 검색할 혹은 적합 문헌 1개를 검색하지 못할 때를 모두 같이 1점을 감점하는 상황으로써, 이러한 이진적인 상황에서 정확성을 계산하는
  • Bayes 최적 결정 규칙(Bayes Optimal Decision Rule)
    • 어떤 문헌이 질의에 적합할 가능성이 적합하지 않을 가능성보다 크면 문헌을 검색하고 그렇지 않으면 검색하지 않는
 

11.3 이진 독립 모델

  • 이진 독립 모델(BIM, Binary Independence Model)
    • 전통적으로 PRP 함께 사용되던 모델
    • 문헌들과 질의들 모두 이진 용어 발생 벡터(Binary term incidence vector) 표현됨
  • Naive Bayes 조건부 독립 가정(Naive Bayes conditional independence assumption)
    • 질의가 주어졌을 어떤 용어의 출현 혹은 미출현이 다른 용어의 출현 혹은 미출현에 영향을 주지 않는다는 가정
  • 검색 상태 (RSV, Retrieval Status Value)
    • 순위화를 위해 로그를 사용한
    • 로그 함수는 단조(Monotonic) 함수이기 때문에 용어의 로그를 사용해도 같은 순위화를 억게
  • 상대빈도(Relative frequency)
    • 사건이 발생한 횟수를 전체 실험 횟수로 나누는
  • 최대 우도 추정(MLE, Maximum Likelihood Estimation)
    • 상대 빈도를 이용하여 확률을 추정하는
    • 우연히 관찰된 사건들의 확률은 너무 크게 되고 반면 다른 관찰되지 않은 사건들은 완전히 무시되어 확률이 0 있음
    • 평활화(Smoothing)
      • 관찰된 사건들의 확률들을 줄이는 동시에 관찰되지 않은 사건들의 확률을 증가시키는
    • 의사횟수(Pseudocounts)
      • 일정한 수를 모든 관찰 횟수에 더하는
      • Bayes 규칙에서 Bayes 사전확률(Bayesian prior) 모든 어휘집 용어에 대해 균등 분포(Uniform distribution) 사용하는 것에 해당됨
      • 일정한 수의 크기는 균등성에 대한 믿음의 강도이며 믿음이 약한 경우 1/2 하고, 이는 최대 사후 확률(MAP, Maximum a posteriori) 추정의 형태
 

11.4 평가 확장

  • 전통적으로 확률 정보 검색은 깔끔한 이론을 갖추고 있으나 실질적인 성능은 좋지 않음
  • 검색에 필요한 확률들에 대한 적절한 추정은 가능하지만 이는 여러 가지 중요한 가정을 전제로 하기 때문
    • 문헌/질의/적합성에 대한 이진 표현 사용
    • 용어 독립성
    • 질의에 없는 용어는 결과에 영향을 주지 않음
    • 문헌 적합성은 상호 독립적임
  • 하지만 90년대 BM25 가중치 기법 이후로 인식이 전환됨
  • BM25 가중치 기법(BM25 weights schema) 혹은 Okapi 가중치 기법(Okapi weights schema)
    • 확률 모델에 너무 많은 다른 인수들을 도입하지 않으면서도 용어 빈도, 문헌 길이와 같은 요소들을 고려하는 확률 모델을 만들기 위해 개발됨

 

 

 

블로그 이미지

나뷜나뷜

,