'정보검색론'에 해당되는 글 20건

2019.01.23 정보검색론 공부 - 점수계산, 용어 가중치, 벡터 공간 모델

정보검색론 공부 - 점수계산, 용어 가중치, 벡터 공간 모델

Study/Information Retrieval 2019. 1. 23. 21:05

6.1 인수 색인과 구역 색인

전자 문헌들은 일반적으로 각 문헌들과 관련된 메타 데이터(metadata)를 포함하여 기계가 이해하는 형식으로 부호화됨

메타데이터는 일반적으로 저자와 문헌 제목뿐만 아니라 출판일과 문헌의 형식과 같은 필드(Field)들을 포함

구역(zone)

필드와 유사하지만 필드와 다르게 구역의 내용은 자유로운 형식의 문장일 수 있음 (예, 제목, 개요 등)

인수 색인(Parametric indexes)의 사전

정해진 어휘들(언어들의 집합, 날짜들의 집합)

구역 색인(Zone index)의 사전

해당 구역의 문장에서 나오는 모든 어휘들의 어간으로 구성
포스팅 안에 나타나는 용어들이 있는 구역을 부호화하면 사전의 크기를 줄일 수 있음

가중치 구역 점수 계산(Weighted zone scoring)

Boolean 질의 q와 문헌 d가 있을 때, 가중치 구역 점수 계산은 [0, 1] 사이에 있는 점수를 (q, d)에 부여하는 것

i=1ℓgisi

s_i는 q와 i번째 구역이 매칭(또는 부재)되는 것을 나타내는 Boolean 점수임
순위 Boolean 검색(Ranked boolean retrieval)이라고도 함

6.2 용어 빈도와 가중치

용어 빈도(Term frequency)

가중치 체계로 tft,d로 표시하며, 밑 첨자는 용어와 문헌을 나타냄

단어 주머니 모델(Bag of words model)

문헌 d에 대해서 tf 가중치로 정해진 가중치 집합(또는 d의 t 빈도를 양의 실수로 변환해주는 어떤 가중치 함수)으로 그 문헌을 수치로 요약한 것

컬렉션 빈도(Collection frequency)

컬렉션 안에 있는 용어의 전체 빈도
너무 자주 등장하는 용어의 효과를 감소시키기 위해 높은 컬렉션 빈도(cf)의 용어에 대해 용어의 tf 가중치를 줄일 수 있음
일반적으로는 용어 t를 포함하는 문헌들의 수로 정의된 문헌 빈도(Document frequency) df_t를 사용함

역문헌 빈도(idf, Inverse document frequency)

사용된 용어의 문헌 빈도 df로 가중치 크기를 결정하는 방법
컬렉션 안의 문헌 총 수를 N

idft=logNdft

tf-idf 가중치

tf-idft,d=tft,didft

용어 빈도와 역문헌 빈도의 정의를 결합하여 각 문헌에 있는 각 용어의 복합 가중치를 만듦

적은 수의 문헌에 용어 t가 많이 있으면 가장 높은 값을 가짐 (높은 식별력을 제공함)
한 문헌이나 많은 문헌들에 그 용어가 적게 있으면 더 적은 값을 가짐 (적합성이 뚜렷하지 않음)
모든 문헌 안에 그 용어들이 있을 경우 가장 낮은 값을 가짐

각 문헌은 사전에 있는 각 용어를 하나의 요소로 가지는 문헌 벡터(Document vector)로 볼 수 있음
벡터 형식은 점수 계산과 랭킹에 중요함

6.3 점수 계산을 위한 벡터 공간 모델

벡터 공간 모델(Vector space model)

일반적인 벡터 공간 안에서 문헌들의 집합을 벡터로 표현하는 것

벡터 공간 안에 있는 두 문헌들 간의 유사도를 어떻게 측정할 것인가?

두 문헌의 벡터 간 코사인 유사도(Cosine similarity)를 계산함

질의 벡터

질의를 벡터로 보고 계산한 결과 점수를 질의와 일치하는 문헌을 선택하는데 사용할 수 있음

최대 tf 정규화

문헌 안에 있는 최대 tf로 문헌 안의 모든 용어 빈도의 tf 가중치를 정규화 함
최대 tf 정규화에서 고려해야할 사항

불용어의 변화는 용어 가중치(그리고 랭킹까지)를 극적으로 변경시킬 수 있음 (조율하기 어려움)
어떤 문헌이 그 문헌을 대표하지 않지만 특이하게 큰 빈도를 가지는 예외 용어(Outlier term)를 포함할 수 있음
일반적으로 가장 빈번하게 나타나는 용어가 많은 다른 용어들만큼 나타나는 문헌은 한쪽으로 치우친 분포를 가지는 문헌과는 다르게 다뤄져야 함

피봇 문헌 길이 정규화(Pivoted document length normalization)

단위 질의 벡터와 이렇게 정규화된 문헌 간의 내적 점수를 계산할 때, 적합성에 관한 문헌 길이의 효과를 설명하기 위해 점수가 비뚤어지는데 이와 같이 문헌 길이를 보완하는 방법임
하지만 피봇 문헌 길이 정규화가 모든 응용에 적합한 것은 아님 (특히 적합성이 문헌 길이와 상관이 없는 경우)

참고: Introduction to Information Retrieval

저작자표시 비영리 변경금지 (새창열림)

'Study > Information Retrieval' 카테고리의 다른 글

정보검색론 공부 - 정보 검색 평가 (1)	2019.01.23
정보검색론 공부 - 완전한 검색 시스템에서의 점수 계산 (0)	2019.01.23
정보검색론 공부 - 색인 압축 (0)	2019.01.23
정보검색론 공부 - 색인 구축 (0)	2019.01.23
정보검색론 공부 - 사전과 융통성 있는 검색 (0)	2019.01.23

블로그 이미지

나뷜나뷜

,

달력

티스토리툴바