'개발새발'에 해당되는 글 56건

 

 

6.1 인수 색인과 구역 색인

  • 전자 문헌들은 일반적으로 문헌들과 관련된 메타 데이터(metadata) 포함하여 기계가 이해하는 형식으로 부호화됨
    • 메타데이터는 일반적으로 저자와 문헌 제목뿐만 아니라 출판일과 문헌의 형식과 같은 필드(Field)들을 포함
  • 구역(zone)
    • 필드와 유사하지만 필드와 다르게 구역의 내용은 자유로운 형식의 문장일 있음 (, 제목, 개요 )
  • 인수 색인(Parametric indexes) 사전
    • 정해진 어휘들(언어들의 집합, 날짜들의 집합)
  • 구역 색인(Zone index) 사전
    • 해당 구역의 문장에서 나오는 모든 어휘들의 어간으로 구성
    • 포스팅 안에 나타나는 용어들이 있는 구역을 부호화하면 사전의 크기를 줄일 있음
  • 가중치 구역 점수 계산(Weighted zone scoring)
    • Boolean 질의 q 문헌 d 있을 , 가중치 구역 점수 계산은 [0, 1] 사이에 있는 점수를 (q, d) 부여하는
i=1gisi
    • s_i q i번째 구역이 매칭(또는 부재)되는 것을 나타내는 Boolean 점수임
    • 순위 Boolean 검색(Ranked boolean retrieval)이라고도
 

6.2 용어 빈도와 가중치

  • 용어 빈도(Term frequency)
    • 가중치 체계로 tft,d 표시하며, 첨자는 용어와 문헌을 나타냄
  • 단어 주머니 모델(Bag of words model)
    • 문헌 d 대해서 tf 가중치로 정해진 가중치 집합(또는 d t 빈도를 양의 실수로 변환해주는 어떤 가중치 함수)으로 문헌을 수치로 요약한
  • 컬렉션 빈도(Collection frequency)
    • 컬렉션 안에 있는 용어의 전체 빈도
    • 너무 자주 등장하는 용어의 효과를 감소시키기 위해 높은 컬렉션 빈도(cf) 용어에 대해 용어의 tf 가중치를 줄일 있음
    • 일반적으로는 용어 t 포함하는 문헌들의 수로 정의된 문헌 빈도(Document frequency) df_t 사용함
  • 역문헌 빈도(idf, Inverse document frequency)
    • 사용된 용어의 문헌 빈도 df 가중치 크기를 결정하는 방법
    • 컬렉션 안의 문헌 수를 N
idft=logNdft
  • tf-idf 가중치
tf-idft,d=tft,didft
    • 용어 빈도와 역문헌 빈도의 정의를 결합하여 문헌에 있는 용어의 복합 가중치를 만듦
      • 적은 수의 문헌에 용어 t 많이 있으면 가장 높은 값을 가짐 (높은 식별력을 제공함)
      • 문헌이나 많은 문헌들에 용어가 적게 있으면 적은 값을 가짐 (적합성이 뚜렷하지 않음)
      • 모든 문헌 안에 용어들이 있을 경우 가장 낮은 값을 가짐
    • 문헌은 사전에 있는 용어를 하나의 요소로 가지는 문헌 벡터(Document vector) 있음
    • 벡터 형식은 점수 계산과 랭킹에 중요함
 

6.3 점수 계산을 위한 벡터 공간 모델

  • 벡터 공간 모델(Vector space model)
    • 일반적인 벡터 공간 안에서 문헌들의 집합을 벡터로 표현하는
  • 벡터 공간 안에 있는 문헌들 간의 유사도를 어떻게 측정할 것인가?
    • 문헌의 벡터 코사인 유사도(Cosine similarity) 계산함
  • 질의 벡터
    • 질의를 벡터로 보고 계산한 결과 점수를 질의와 일치하는 문헌을 선택하는데 사용할 있음
  • 최대 tf 정규화
    • 문헌 안에 있는 최대 tf 문헌 안의 모든 용어 빈도의 tf 가중치를 정규화
    • 최대 tf 정규화에서 고려해야할 사항
      • 불용어의 변화는 용어 가중치(그리고 랭킹까지) 극적으로 변경시킬 있음 (조율하기 어려움)
      • 어떤 문헌이 문헌을 대표하지 않지만 특이하게 빈도를 가지는 예외 용어(Outlier term) 포함할 있음
      • 일반적으로 가장 빈번하게 나타나는 용어가 많은 다른 용어들만큼 나타나는 문헌은 한쪽으로 치우친 분포를 가지는 문헌과는 다르게 다뤄져야
  • 피봇 문헌 길이 정규화(Pivoted document length normalization)
    • 단위 질의 벡터와 이렇게 정규화된 문헌 간의 내적 점수를 계산할 , 적합성에 관한 문헌 길이의 효과를 설명하기 위해 점수가 비뚤어지는데 이와 같이 문헌 길이를 보완하는 방법임
    • 하지만 피봇 문헌 길이 정규화가 모든 응용에 적합한 것은 아님 (특히 적합성이 문헌 길이와 상관이 없는 경우)

 

 

 

블로그 이미지

나뷜나뷜

,