'정보검색론'에 해당되는 글 20건

 

 

2.1 문헌 식별과 문자열 복호화

  • 고려할
    • ASCII, UTF-8 등의 다양한 바이트 부호 체계(Encoding scheme) 고려한 문헌의 문자열 획득
    • 문헌 단위(Document Unit) 결정하고 아주 문헌에 대해서는 색인 단위(Index granularity)에서 재현율과 정확률 간의 상반관계(Tradeoff) 고려할 필요가 있음
 

2.2 용어 어휘집 결정

  • 토큰화: 문헌을 토큰(Token)이라는 단위로 나누는 작업
    • 토큰화를 위해 어떻게 분리하느냐에 따라 어떤 Boolean 질의와 매치될 것인가가 결정됨
    • 토큰화 이슈는 언어별로 다르며, 대부분의 언어들은 독특한 서명 패턴(Signature pattern) 가지기 때문에 언어식별(Language identification) 방식이 매우 효과적임
    • 복합명사(Compound noun) 공백없이 표기된 경우 복합어 분리기(Compound splitter) 모듈이 중요하게 고려되며, 이를 통해 단어 분할(Word segmentation) 수행됨
    • 불용어(Stop words)
      • 너무 자주 출현하기 때문에 사용자 요구와 일치하는 문헌들을 선택하는 거의 쓸모가 없어 보이는 단어
      • 일반적으로는 컬렉션 빈도(Collection frequency) 별로 용어들을 정렬 가장 자주 출현하는 용어들을 선별하여 불용어 목록(Stop list) 만듦
      • 불용어는 키워드 탐색(Keyword search)에서는 유용하지 않지만 구절 탐색(Phrase search)에서는 본래의 의미를 잃을 있어 주의할 필요가 있음
    • 토큰 정규화(Token normalization) 토큰들의 문자열이 겉보기에는 서로 다를지라도 어울리도록 목적으로 토큰을 규범화 시키는 과정으로 일반적으로 동치류(Equivalence class) 생성시키는 방법을 이용함
      • 동치류: 예를 들어 anti-discriminatory anti discriminatory라는 토큰을 모두 antidiscriminatory 사상시킴
    • 외에도 발음구분기호(Diacrictics), 대소문자통일(Case-folding), 대소문자 분별(Truecasing), 어근 추출(Stemming), 표제어 복원(Lemmatization) 등이 고려될 있음
 

2.3 스킵 포인터를 이용한 빠른 포스팅 목록 교집합 연산

  • 스킵 포인터(Skip pointer)
    • 탐색 결과에 나올 없는 포스팅 목록 일부를 처리하지 않도록 해주는 효과적인 단축법
    • 고려사항
      • 스킵 포인터들을 어디에 위치시켜야 할까?
      • 스킵 포인터들을 어떻게 활용해야 효율적으로 병합 처리를 있을까?
    • 스킵들이 많으면 스킵 범위가 짧아지고 많이 스킵할 있음
    • 그러나 스킵 포인터와의 비교가 많아지고 스킵 포인터를 저장하기 위한 많은 공간이 필요하게
    • 보다 적은 스킵들은 적은 포인터 비교를 의미하지만 스킵 범위는 결국 스킵할 있는 기회가 적어짐
    • 일반적으로 포스팅 길이가 P일때, P 스킵 포인트로 사용함
 

2.4 위치 포스팅과 구절 질의

  • 구절 질의(Phase queries)
    • 복합어를 하나의 구로 취급하여 개별 단어의 포함으로 인한 오류 발생을 방지
  • 단어 (Biwords) 색인
    • 구절을 다루기 위한 방법으로 friends romans countrymen 단어쌍1(friends romans), 단어쌍2(romans countrymen) 각각 하나의 어휘로 간주
    • 하지만 경우에 따라 긍정 오류(False positives) 발생시킬 있음
    • 일부 오류 해소를 위해 품사보다는 주로 중요한 명사에 집중함
      • renegotiation of the constitution -> NXXN으로 파싱 처리한 이로부터 확장된 단어 쌍들을 추출함
    • 단어 이상으로 색인된 구가 긍정 오류일 가능성은 사실상 아주 작지만 저장하는 구의 길이가 길어지면 어휘집 규모가 크게 늘어날 가능성이 있음
  • 위치 색인(Positional index)
    • 가장 일반적인 방법으로 어휘집 안에 있는 각각의 용어를 대상으로 docID: <position1, position2, …> 형식의 포스팅을 저장함
      • 각각의 위치는 문헌 내에서 토큰의 색인을 의미함
    • 위치 색인의 크기는 위치 /오프셋을 압축하더라도 필요로 하는 포스팅 저장소가 상당히 늘어나게

 

 

 

블로그 이미지

나뷜나뷜

,