'Study/Information Retrieval'에 해당되는 글 21건

2019.01.23 정보검색론 공부 - 정보 검색을 위한 언어 모델

정보검색론 공부 - 정보 검색을 위한 언어 모델

Study/Information Retrieval 2019. 1. 23. 21:19

12.1 언어 모델

생성 모델(Generative model)

문자열을 인식하거나 생성함

언어 모델의 종류

유니그램 언어 모델(Unigram language model)

언어 모델의 제일 간단한 형태로 단순히 모든 조건 문맥을 무시하고 각 용어에 대해 독립적으로 계산하는 것

바이그램 언어 모델(Bigram language model)

어떤 용어의 발생이 단지 직전에 나타난 용어에만 의존하는 언어 모델

12.2 질의 우도 모델

질의 우도 모델(Query likelihood model)

정보 검색에 대해 언어 모델을 사용하는 가장 기본적인 방법
컬렉션 내 각 문헌 d에 대해 대응되는 언어 모델 M을 구축함
확률 P(d | q)에 따라서 문헌을 순위화하는 것을 목적으로 함
가장 일반적인 방법은 다향 유니그램 언어 모델을 사용하는 것으로, 문헌들을 독립적인 범주들로 취급하여 추정 과정에서 각 문헌을 하나의 개별적인 언어로 취급하는 다항 Naive Bayes 모델과 동일함
언어 모델을 이용한 검색

각 문헌에 대한 언어 모델을 추정함
문헌 모델에 따른 질의를 생성 확률 P(q | M)로 계산함
이들 확률에 따라 문헌들을 순위화함

확률의 평활화 방법

선형 보간 언어 모델(Linear interpolated language models)
Bayesian 수정 과정(Bayesian updating process)

12.3 정보 검색에 대한 언어 모델과 다른 방법들의 비교

언어 모델 방법이 직관적이고 원리적이며 통계량을 사용하는 방식이 기존 방법과 다르고, 검색 성능도 tf-idf나 BM25 가중치보다 좋은 성능을 보임
그럼에도 불구하고 기존 시스템을 바꿀 정도로 언어 모델이 잘 튜닝된 벡터 공간 모델보다 훨씬 우수한 성능을 보인다는 증거는 부족함

12.4 언어 모델 확장 방법들

문헌 우도 모델(Document likelihood model)

단점: 질의 텍스트만 사용하여 언어 모델을 만드는 경우 일반적으로 질의에 나타나는 텍스트 양이 매우 작기 때문에 모델이 정확하게 작성되기 어렵고, 다른 언어 모델과의 평활화에 더욱 의존적으로 됨

언어 모델을 개발하는 3가지 방법

질의 우도
문헌 우도
모델 비교

Kullback-Leibler 거리(KL divergence: Kullback-Leibler divergence)

KL 거리는 정보 이론에서 나온 비대칭적 거리 척도로서, 확률 분포 M_q가 확률 분포 M_d를 모델링하는데 얼마나 부적합한가를 측정함
질의 q에 대해 어떤 문헌 d를 적합 문헌으로 검색하는 것에 대한 위험은 두 언어 모델 사이의 KL거리로 모델링할 수 있음

번역 모델(Translation model)

문헌과 질의 사이의 차이를 극복하기 위하여 제안

기본 언어 모델은 동의어, 질의와 문헌 사이의 언어 사용의 차이 등 표현의 다양성에 대한 문제를 고려하지 않음

문헌에 나타나지 않는 질의 단어들을 비슷한 의미의 다른 용어로 번역함으로써 이 단어를 생성할 수 있도록 함

참고: Introduction to Information Retrieval

저작자표시 비영리 변경금지

'Study > Information Retrieval' 카테고리의 다른 글

정보검색론 공부 - 벡터 공간 분류 (0)	2019.01.23
정보검색론 공부 - 문서 분류와 Naive Bayes (0)	2019.01.23
정보검색론 공부 - 확률 정보 검색 (0)	2019.01.23
정보검색론 공부 - XML 검색 (0)	2019.01.23
정보검색론 공부 - 적합성 피드백과 질의 확장 (0)	2019.01.23

블로그 이미지

나뷜나뷜

,

달력

티스토리툴바