11.1 기본 확률 이론 복습
- 변수 A는 사건(모든 가능한 결과 공간의 부분집합)을 표시함
- 확률 변수(Random variable)
- 부분집합을 표시할 수 있으며, 관찰 결과로부터 실수로의 함수임
- 연쇄 법칙(Chain rule)
- 분할 법칙(Partition rule)
- Bayes 규칙(Bayes’ rule)
- 사전 확률(Prior probability)
- 사후 확률(Posterior probability)
- 우도(Likelihood)
- 대비 확률(Odds)
- 확률이 어떻게 변화하는가에 대한 일종의 승수(Multiplier)
11.2 확률 순위화 원리
- 확률 순위화 원리(PRP, Probability Ranking Principle)
- 확률 모델에서 문헌을 순위화하는 가장 자명한 방법으로 문헌이 주어진 정보 요구에 대하여 적합할 확률 P(R = 1 | d,q)를 추정한 후 이 값에 따라서 순위화하는 것
- 1/0 손실(1/0 loss)
- 부적합 문헌 1개를 검색할 때 혹은 적합 문헌 1개를 검색하지 못할 때를 모두 같이 1점을 감점하는 상황으로써, 이러한 이진적인 상황에서 정확성을 계산하는 것
- Bayes 최적 결정 규칙(Bayes Optimal Decision Rule)
- 어떤 문헌이 질의에 적합할 가능성이 적합하지 않을 가능성보다 크면 그 문헌을 검색하고 그렇지 않으면 검색하지 않는 것
11.3 이진 독립 모델
- 이진 독립 모델(BIM, Binary Independence Model)
- 전통적으로 PRP와 함께 사용되던 모델
- 문헌들과 질의들 모두 이진 용어 발생 벡터(Binary term incidence vector)로 표현됨
- Naive Bayes 조건부 독립 가정(Naive Bayes conditional independence assumption)
- 질의가 주어졌을 때 어떤 용어의 출현 혹은 미출현이 다른 용어의 출현 혹은 미출현에 영향을 주지 않는다는 가정
- 검색 상태 값(RSV, Retrieval Status Value)
- 순위화를 위해 로그를 사용한 값
- 로그 함수는 단조(Monotonic) 함수이기 때문에 용어의 로그를 사용해도 같은 순위화를 억게 됨
- 상대빈도(Relative frequency)
- 사건이 발생한 횟수를 전체 실험 횟수로 나누는 것
- 최대 우도 추정(MLE, Maximum Likelihood Estimation)
- 상대 빈도를 이용하여 확률을 추정하는 것
- 우연히 관찰된 사건들의 확률은 너무 크게 되고 반면 다른 관찰되지 않은 사건들은 완전히 무시되어 확률이 0이 될 수 있음
- 평활화(Smoothing)
- 관찰된 사건들의 확률들을 줄이는 동시에 관찰되지 않은 사건들의 확률을 증가시키는 것
- 의사횟수(Pseudocounts)
- 일정한 수를 모든 관찰 횟수에 더하는 것
- Bayes 규칙에서 Bayes 사전확률(Bayesian prior)로 모든 어휘집 용어에 대해 균등 분포(Uniform distribution)를 사용하는 것에 해당됨
- 일정한 수의 크기는 균등성에 대한 믿음의 강도이며 믿음이 약한 경우 1/2로 하고, 이는 최대 사후 확률(MAP, Maximum a posteriori) 추정의 한 형태
11.4 평가 및 확장
- 전통적으로 확률 정보 검색은 깔끔한 이론을 갖추고 있으나 실질적인 성능은 좋지 않음
- 검색에 필요한 확률들에 대한 적절한 추정은 가능하지만 이는 여러 가지 중요한 가정을 전제로 하기 때문
- 문헌/질의/적합성에 대한 이진 표현 사용
- 용어 독립성
- 질의에 없는 용어는 결과에 영향을 주지 않음
- 문헌 적합성은 상호 독립적임
- 하지만 90년대 BM25 가중치 기법 이후로 인식이 전환됨
- BM25 가중치 기법(BM25 weights schema) 혹은 Okapi 가중치 기법(Okapi weights schema)
- 확률 모델에 너무 많은 다른 인수들을 도입하지 않으면서도 용어 빈도, 문헌 길이와 같은 요소들을 고려하는 확률 모델을 만들기 위해 개발됨
'Study > Information Retrieval' 카테고리의 다른 글
정보검색론 공부 - 문서 분류와 Naive Bayes (0) | 2019.01.23 |
---|---|
정보검색론 공부 - 정보 검색을 위한 언어 모델 (0) | 2019.01.23 |
정보검색론 공부 - XML 검색 (0) | 2019.01.23 |
정보검색론 공부 - 적합성 피드백과 질의 확장 (0) | 2019.01.23 |
정보검색론 공부 - 정보 검색 평가 (1) | 2019.01.23 |