6.1 인수 색인과 구역 색인
- 전자 문헌들은 일반적으로 각 문헌들과 관련된 메타 데이터(metadata)를 포함하여 기계가 이해하는 형식으로 부호화됨
- 메타데이터는 일반적으로 저자와 문헌 제목뿐만 아니라 출판일과 문헌의 형식과 같은 필드(Field)들을 포함
- 구역(zone)
- 필드와 유사하지만 필드와 다르게 구역의 내용은 자유로운 형식의 문장일 수 있음 (예, 제목, 개요 등)
- 인수 색인(Parametric indexes)의 사전
- 정해진 어휘들(언어들의 집합, 날짜들의 집합)
- 구역 색인(Zone index)의 사전
- 해당 구역의 문장에서 나오는 모든 어휘들의 어간으로 구성
- 포스팅 안에 나타나는 용어들이 있는 구역을 부호화하면 사전의 크기를 줄일 수 있음
- 가중치 구역 점수 계산(Weighted zone scoring)
- Boolean 질의 q와 문헌 d가 있을 때, 가중치 구역 점수 계산은 [0, 1] 사이에 있는 점수를 (q, d)에 부여하는 것
i=1ℓgisi
- s_i는 q와 i번째 구역이 매칭(또는 부재)되는 것을 나타내는 Boolean 점수임
- 순위 Boolean 검색(Ranked boolean retrieval)이라고도 함
6.2 용어 빈도와 가중치
- 용어 빈도(Term frequency)
- 가중치 체계로 tft,d로 표시하며, 밑 첨자는 용어와 문헌을 나타냄
- 단어 주머니 모델(Bag of words model)
- 문헌 d에 대해서 tf 가중치로 정해진 가중치 집합(또는 d의 t 빈도를 양의 실수로 변환해주는 어떤 가중치 함수)으로 그 문헌을 수치로 요약한 것
- 컬렉션 빈도(Collection frequency)
- 컬렉션 안에 있는 용어의 전체 빈도
- 너무 자주 등장하는 용어의 효과를 감소시키기 위해 높은 컬렉션 빈도(cf)의 용어에 대해 용어의 tf 가중치를 줄일 수 있음
- 일반적으로는 용어 t를 포함하는 문헌들의 수로 정의된 문헌 빈도(Document frequency) df_t를 사용함
- 역문헌 빈도(idf, Inverse document frequency)
- 사용된 용어의 문헌 빈도 df로 가중치 크기를 결정하는 방법
- 컬렉션 안의 문헌 총 수를 N
idft=logNdft
- tf-idf 가중치
tf-idft,d=tft,didft
- 용어 빈도와 역문헌 빈도의 정의를 결합하여 각 문헌에 있는 각 용어의 복합 가중치를 만듦
- 적은 수의 문헌에 용어 t가 많이 있으면 가장 높은 값을 가짐 (높은 식별력을 제공함)
- 한 문헌이나 많은 문헌들에 그 용어가 적게 있으면 더 적은 값을 가짐 (적합성이 뚜렷하지 않음)
- 모든 문헌 안에 그 용어들이 있을 경우 가장 낮은 값을 가짐
- 각 문헌은 사전에 있는 각 용어를 하나의 요소로 가지는 문헌 벡터(Document vector)로 볼 수 있음
- 벡터 형식은 점수 계산과 랭킹에 중요함
6.3 점수 계산을 위한 벡터 공간 모델
- 벡터 공간 모델(Vector space model)
- 일반적인 벡터 공간 안에서 문헌들의 집합을 벡터로 표현하는 것
- 벡터 공간 안에 있는 두 문헌들 간의 유사도를 어떻게 측정할 것인가?
- 두 문헌의 벡터 간 코사인 유사도(Cosine similarity)를 계산함
- 질의 벡터
- 질의를 벡터로 보고 계산한 결과 점수를 질의와 일치하는 문헌을 선택하는데 사용할 수 있음
- 최대 tf 정규화
- 문헌 안에 있는 최대 tf로 문헌 안의 모든 용어 빈도의 tf 가중치를 정규화 함
- 최대 tf 정규화에서 고려해야할 사항
- 불용어의 변화는 용어 가중치(그리고 랭킹까지)를 극적으로 변경시킬 수 있음 (조율하기 어려움)
- 어떤 문헌이 그 문헌을 대표하지 않지만 특이하게 큰 빈도를 가지는 예외 용어(Outlier term)를 포함할 수 있음
- 일반적으로 가장 빈번하게 나타나는 용어가 많은 다른 용어들만큼 나타나는 문헌은 한쪽으로 치우친 분포를 가지는 문헌과는 다르게 다뤄져야 함
- 피봇 문헌 길이 정규화(Pivoted document length normalization)
- 단위 질의 벡터와 이렇게 정규화된 문헌 간의 내적 점수를 계산할 때, 적합성에 관한 문헌 길이의 효과를 설명하기 위해 점수가 비뚤어지는데 이와 같이 문헌 길이를 보완하는 방법임
- 하지만 피봇 문헌 길이 정규화가 모든 응용에 적합한 것은 아님 (특히 적합성이 문헌 길이와 상관이 없는 경우)
'Study > Information Retrieval' 카테고리의 다른 글
정보검색론 공부 - 정보 검색 평가 (1) | 2019.01.23 |
---|---|
정보검색론 공부 - 완전한 검색 시스템에서의 점수 계산 (0) | 2019.01.23 |
정보검색론 공부 - 색인 압축 (0) | 2019.01.23 |
정보검색론 공부 - 색인 구축 (0) | 2019.01.23 |
정보검색론 공부 - 사전과 융통성 있는 검색 (0) | 2019.01.23 |