9.1 적합성 피드백과 의사 적합성 피드백

  • 적합성 피드백(RF, Relevance Feedback)
    • 정보 검색 과정에서 사용자를 참여시켜, 최종 검색 결과를 향상시키기 위한 방법
      • 사용자가 질의(짧고 간단한) 입력함
      • 시스템은 검색된 초기 결과를 반환함
      • 사용자는 초기 검색 결과의 일부 문헌에 대해 적합/부적합 여부를 표시함
      • 시스템은 사용자 피드백을 이용하여 정보 요구에 대한 보다 개선된 표현(질의) 계산함
      • 시스템은 재검색된 결과를 제시함
    • Rocchio 알고리즘
      • 적합성 피드백 구현을 위한 고전적인 알고리즘
      • 적합 문헌들과의 유사도를 최대화하고, 적합하지 않은 문헌들과의 유사도를 최소화하는 질의 벡터를 찾고자
    • 가정 사항
      • 사용자는 자신이 찾고자하는 문헌과 적어도 어느 정도 가까운 질의를 작성하는데 필요한 충분한 지식을 지니고 있음
      • RF 기법은 적합 문헌들끼리는 어느 정도 서로 비슷하기를 요구함
        • 문헌들이 서로 가까이에 군집화되어 있어야
    • 철자오류, 교차언어 정보 검색, 컬렉션 어휘와 사용자 어휘의 불일치가 존재하는 경우 RF 해결할 없음
  • 적합성 피드백
    • RF 사용자들에게 설명하기가 어렵고, RF 기본적으로 재현율 향상을 위한 도구이지만 검색 사용자들 아주 높은 재현율을 바라는 사용자는 매우 적음
  • RF 평가
    • RF 다른 기법에 대해 적합 문헌들을 찾는데 걸린 시간 혹은 주어진 시간 내에 찾아낸 적합 문헌의
  • 의사 적합성 피드백(Pseudo relevance feedback) 또는 맹목적 적합성 피드백(Blind relevance feedback)
    • 자동 지역 분석의 가지 방법으로 적합성 피드백에서 사용자 개입 부분을 자동화
    • 초기 검색 결과에서 상위 k개의 문헌을 적합하다고 가정하고 RF 이전과 같이 수행함
  • 암묵적 적합성 피드백(Implicit relevance feedback)
    • 클릭스트림 마이닝의 형태로 링크에 대한 클릭을 페이지가 질의에 적합하다는 증거로 가정함
 

9.2 질의 재작성을 위한 전역적 방법들

  • 질의 재작성을 위한 어휘 도구
    • 다양한 사용자 지원을 통해 자신의 검색이 제대로 되고 있는지 있도록 도와주는 도구
      • 어떤 용어가 불용어로 판단되어 질의에서 제거 되었는지
      • 어떻게 어근 추출 되었는지
      • 용어나 구를 통하여 개의 문헌이 검색되었는지
      • 어떤 용어들이 자동적으로 구로 병환되었는지
  • 질의 확장(Query expansion)
    • 질의를 주면 질의와 관련된 질의들을 시스템이 제시하는
    • 시소러스(Thesaurus)
      • 질의 확장을 위한 전역적 분석 방법
      • 질의에 나타난 용어 t 대해 시소러스 상에서 t 관련이 있거나 동의어인 용어들로 확장하는
    • 시소러스 구축 방법
      • 사람에 의해 작성, 관리되는 통제 어휘집의 사용
      • 수동 작성 시소러스
      • 자동 생성 시소러스
      • 질의 로그 마이닝을 통한 질의 재작성
    • 시소러스 자동 생성
      • 단순히 용어 공기를 활용하는
        • 같은 문헌 혹은 같은 단락에서 공기하는 용어들은 의미적으로 유사하거나 서로 관련이 있다고 있음
      • 표층 구문 분석(Shallow parsing)
        • 문법적 관계 혹은 문법적 의존 관계를 이용하는 방법
        • 예를 들어 재배하고, 요리하고, 먹고, 소화시키는 물건이라면 음식일 가능성이

 

 

 

블로그 이미지

나뷜나뷜

,