'Study'에 해당되는 글 21건

2019.01.23 정보검색론 공부 - 확률 정보 검색

정보검색론 공부 - 확률 정보 검색

Study/Information Retrieval 2019. 1. 23. 21:17

11.1 기본 확률 이론 복습

변수 A는 사건(모든 가능한 결과 공간의 부분집합)을 표시함

확률 변수(Random variable)

부분집합을 표시할 수 있으며, 관찰 결과로부터 실수로의 함수임

연쇄 법칙(Chain rule)
분할 법칙(Partition rule)
Bayes 규칙(Bayes’ rule)
사전 확률(Prior probability)
사후 확률(Posterior probability)
우도(Likelihood)
대비 확률(Odds)

확률이 어떻게 변화하는가에 대한 일종의 승수(Multiplier)

11.2 확률 순위화 원리

확률 순위화 원리(PRP, Probability Ranking Principle)

확률 모델에서 문헌을 순위화하는 가장 자명한 방법으로 문헌이 주어진 정보 요구에 대하여 적합할 확률 P(R = 1 | d,q)를 추정한 후 이 값에 따라서 순위화하는 것

1/0 손실(1/0 loss)

부적합 문헌 1개를 검색할 때 혹은 적합 문헌 1개를 검색하지 못할 때를 모두 같이 1점을 감점하는 상황으로써, 이러한 이진적인 상황에서 정확성을 계산하는 것

Bayes 최적 결정 규칙(Bayes Optimal Decision Rule)

어떤 문헌이 질의에 적합할 가능성이 적합하지 않을 가능성보다 크면 그 문헌을 검색하고 그렇지 않으면 검색하지 않는 것

11.3 이진 독립 모델

이진 독립 모델(BIM, Binary Independence Model)

전통적으로 PRP와 함께 사용되던 모델
문헌들과 질의들 모두 이진 용어 발생 벡터(Binary term incidence vector)로 표현됨

Naive Bayes 조건부 독립 가정(Naive Bayes conditional independence assumption)

질의가 주어졌을 때 어떤 용어의 출현 혹은 미출현이 다른 용어의 출현 혹은 미출현에 영향을 주지 않는다는 가정

검색 상태 값(RSV, Retrieval Status Value)

순위화를 위해 로그를 사용한 값
로그 함수는 단조(Monotonic) 함수이기 때문에 용어의 로그를 사용해도 같은 순위화를 억게 됨

상대빈도(Relative frequency)

사건이 발생한 횟수를 전체 실험 횟수로 나누는 것

최대 우도 추정(MLE, Maximum Likelihood Estimation)

상대 빈도를 이용하여 확률을 추정하는 것
우연히 관찰된 사건들의 확률은 너무 크게 되고 반면 다른 관찰되지 않은 사건들은 완전히 무시되어 확률이 0이 될 수 있음
평활화(Smoothing)

관찰된 사건들의 확률들을 줄이는 동시에 관찰되지 않은 사건들의 확률을 증가시키는 것

의사횟수(Pseudocounts)

일정한 수를 모든 관찰 횟수에 더하는 것
Bayes 규칙에서 Bayes 사전확률(Bayesian prior)로 모든 어휘집 용어에 대해 균등 분포(Uniform distribution)를 사용하는 것에 해당됨
일정한 수의 크기는 균등성에 대한 믿음의 강도이며 믿음이 약한 경우 1/2로 하고, 이는 최대 사후 확률(MAP, Maximum a posteriori) 추정의 한 형태

11.4 평가 및 확장

전통적으로 확률 정보 검색은 깔끔한 이론을 갖추고 있으나 실질적인 성능은 좋지 않음
검색에 필요한 확률들에 대한 적절한 추정은 가능하지만 이는 여러 가지 중요한 가정을 전제로 하기 때문

문헌/질의/적합성에 대한 이진 표현 사용
용어 독립성
질의에 없는 용어는 결과에 영향을 주지 않음
문헌 적합성은 상호 독립적임

하지만 90년대 BM25 가중치 기법 이후로 인식이 전환됨
BM25 가중치 기법(BM25 weights schema) 혹은 Okapi 가중치 기법(Okapi weights schema)

확률 모델에 너무 많은 다른 인수들을 도입하지 않으면서도 용어 빈도, 문헌 길이와 같은 요소들을 고려하는 확률 모델을 만들기 위해 개발됨

참고: Introduction to Information Retrieval

저작자표시 비영리 변경금지 (새창열림)

'Study > Information Retrieval' 카테고리의 다른 글

정보검색론 공부 - 문서 분류와 Naive Bayes (0)	2019.01.23
정보검색론 공부 - 정보 검색을 위한 언어 모델 (0)	2019.01.23
정보검색론 공부 - XML 검색 (0)	2019.01.23
정보검색론 공부 - 적합성 피드백과 질의 확장 (0)	2019.01.23
정보검색론 공부 - 정보 검색 평가 (1)	2019.01.23

블로그 이미지

나뷜나뷜

,

달력

티스토리툴바