'information retrieval'에 해당되는 글 20건

 

 

8.1 정보 검색 시스템 평가

  • 정보 검색의 유효성 측정을 위해 요구되는 실험 컬렉션
    • 문헌 컬렉션
    • 질의로 표현 가능한 정보 요구의 실험 집합
    • 질의-문헌 쌍에 대해서 적합과 비적합을 이진 평가하는 적합성 판단 집합
  • 정보 검색 시스템의 평가는 적합성(Relevance) 중심으로
  • 이진 평가를 위한 이빈 분류의 결정은 적합성 판단의 평가 표준(gold standard, ground truth)으로 주어짐
  • 평균적인 성능을 보이기 위해서는 실험 문헌 컬렉션과 정보 요구 집합이 적당히 커야하며, 일반적으로 최소 50 정도의 정보 요구가 필요함
  • 적합성은 질의가 아닌 정보 요구(Information need)와의 관계로 평가됨
  • 성능 조정을 위해 다양한 가중치들이 사용될 있으며, 시스템 성능 보고를 위해서는 이러한 가중치를 포함하기보다는 개발 실험 컬렉션을 가지고 개발 실험 컬렉션에 대해 인수를 조정해야
 

8.2 표준 실험 컬렉션

  • Cranfield: 가장 기초적인 실험 컬렉션
  • TREC(Text Retrieval Conference): 528,000 이상의 뉴스 FBIS 기사에 대한 150개의 정보 요구
  • NIST: 2500 페이지로 구성된 GOV2 웹페이지 컬렉션
  • NTCIR(NII Test Collection for IR Systems): 교차-언어 정보 검색을 위한 실험 컬렉션
  • CLEF(Cross Language Evaluation Forum): 유럽 언어와 교차 언어 정보 검색
  • Reuters-21578, Reuters-RCV1: 각각 21,578, 806,791개의 문헌을 포함하는 가장 많이 사용되는 실험 컬렉션
  • 20 Newsgroups: 중복 기사를 제외하면 18,941개의 기사로 구성된 실험 컬렉션
 

8.3 순위 없는 검색 집합의 평가

  • 정확률(Precision)
    • #(검색된 적합 문헌) / #(검색 문헌) = P(적합 | 검색)
    • P = TP / (TP + FP)
  • 재현율(Recall)
    • #(검색된 적합 문헌) / #(적합 문헌) = P(검색 | 적합)
    • P = TP / (TP + FN)
  • 정밀도(Accuracy)
    • Accuracy = (TP + TN) / (TP + FP + FN + TN)
  • 일반적으로 일정 비율의 긍정 오류를 묵인하는 재현율을 얻고자
  • F 척도(F measure)
    • 정확률과 재현율의 가중치 조화 평균
      • 모든 문헌을 검색하는 것으로 항상 100% 재현율을 얻을 있기 때문에 같은 과정으로 항상 50% 산술 평균을 얻을 있기 때문에 조화 평균을 이용 (산술 평균은 부적합 )
    • 균형 F 척도(Balanced F measure)
      • 정확률과 재현율에 동등한 가중치를 (α = ½, β = 1)
 

8.4 순위 검색 결과의 평가

  • 정확률-재현율 곡선(Precision-recall curve)
    • (k + 1)번째 검색된 문헌이 부적합이라면 재현율은 k개의 최상우 ㅣ문서오 ㅏ같지만 정확률은 떨어지며, 만일 적합이면 정확률과 재현율이 증가하여 특유의 톱모양 모습을 나타냄
  • 보간 정확률(Interpolated precision)
    • 들쭉날쭉한 변동을 제거하는 표준적인 방법
  • 11-수준 평균 정확률(11-point interpolated average precision)
    • TREC Ad Hoc 평가에서 사용되는 전통적인 방법
    • 특히 좋은 차별성과 안정성을 보여주는 평가 척도로 평균 정확률(MAP, Mean Average Precision) 주로 이용
  • k-문서 정확률(Precision at k)
    • 페이지 혹은 처음 페이지에서 좋은 결과가 얼마나 많은가가 중요하므로 10 ~ 30개의 문헌 처럼 적은 수의 결과 집합에 대한 정확도를 측정함
    • 단점: 가장 안정성이 낮고 질의에 대한 적합 문헌의 개수가 k-문서 정확률에 강한 영향을 미치기 때문에 평균을 내기 어려움
  • R-정확률(R-precision)
    • 알려진 적합 문헌 Rel 집합이 필요하며, 집합으로부터 최상위 Rel 문헌의 정확률을 계산함
    • R-정확률은 곡선상의 점만을 표현하므로 최적의 (최대 F-척도)이나 특정 어플리케이션에 대해 관심이 있는 검색 수준(k-문서 정확률)보다 손익 분기점(Break-even point)  관심을 가져야 하는지는 명확하지 않지만 MAP과는 높은 상관관계를 보임
  • ROC 곡선(Receiver operating characteristics curve)
    • 긍정 오류 비율(FP / (FP + TN)) 또는 1-특정성(TN / (FP + TN)) 대한 긍정 정답 비율 또는 민감도(Sensitivity)(=재현율) 나타냄
  • 누적 이득(Cumulative gain) 또는 정규화 할인 누적 이득(NDCG, Normalized Discounted Cumulative Gain)
    • 특히 순위화를 위한 기계 학습과 같은 분야에서 적용이 증가하고 있음
    • 비인진법 개념의 상황에 맞게 설계되었으며, k-문서 정확률처럼 k번째 상위 검색 결과를 평가함
 

8.5 적합성 평가

  • 풀링(Pooling)
    • 현대의 커다란 컬렉션에서 질의에 대해 문헌의 일부에 대해 적합성을 평가하기 위한 가장 표준적인 방법
    • 정보 검색 시스템이 검색한 최상위 k개의 문헌으로 구성된 컬렉션의 일부와 Boolean 키워드 검색의 결과 또는 대화식으로 전문 검색사가 찾은 문헌과 같은 다른 자료에 대해서 적합성을 평가함
  • Kappa 통계치(Kappa statistic)
    • 문헌 적합성은 개개인에 따라 다르지만 일반적으로 Kappa 통계치를 사용함
    • 범주 평가를 위해서 설계되었으며, 단순 일치도를 기회 일치도로 교정함
  • 적합성과 한계 적합성(Marginal relevance)
    • 사용자가 특정 문헌을 이후에도 이전에 문헌이 여전히 유효성을 가지는가를 판단하는 문제
 

8.6 대체적 전망: 시스템 품질과 사용자 유용도

  • 사용자 유용도(User utility)
    • 정보 요구에 대해 시스템이 제시하는 결과에 사용자가 얼마나 만족하는가를 평가하는
    • 궁극적 목표
      • 적합성, 속도, 사용자 인터페이스를 바탕으로 사용자 만족도를 정량적으로 측정하는
    • 민속학적 인터뷰 기법(Ethnographical interview technique)
  • 시스템 문제
    • 색인 속도
      • 어떤 문헌 길이 분포에 대해서 시간당 개의 문헌을 색인할 있나?
    • 검색 속도
      • 색인 크기에 따른 대기 시간은 얼마인가?
    • 질의 언어의 표현력
      • 복잡한 질의를 얼마나 빨리 해결할 있는가?
    • 문헌 컬렉션의 크기
      • 광범위한 주제에 걸쳐 분포된 정보를 가지는 문헌이나 컬렉션의 크기는 얼마인가?
  • 배치된 시스템의 정제
    • A/B 실험(A/B test)
      • 현재 시스템에서 1 ~ 10% 사용자들에게 변형된 시스템을 제공하여 조사하는
      • 클릭 로그 분석(Clickthrough log analysis) 혹은 클릭 스트림 마이닝(Clickstream mining) 분석 방법이 있음
      • 변화 효과 측정을 위해 복수 선형 회귀 분석(Multiple linear regression) 같은 표준 다변수 통계 분석(Standard multivariate statistical analysis) 방법을 이용할 있음
 

8.7 결과 요약

 

  • 요약(Snippet)
    • 정적 요약(Static summary)
      • 질의에 상관없이 동일한 요약 방법
    • 동적 요약(Dynamic summary) 또는 질의 기반 요약(Query dependent summary)
      • 질의에서 추론되는 사용자의 정보 요구에 맞추어 제공되는 요약 방법
  • 문서 요약(Text summarization)
    • 대부분의 연구는 여전히 문헌에서 문장을 선택하는데 중점을 두고 있으며, 어떻게 좋은 문장을 선택하느냐에 초점을 맞추고 있음
    • 전형적으로 위치 요소와 내용 요소를 결합하여 요약을 하고 있음
    • 위치 요소
      • 문헌의 처음과 마지막 문단과 문단의 처음과 마지막 문장을 선호함
    • 내용 요소
      • 전체 컬렉션에서 낮은 문헌 빈도를 가지지만 반환되는 특정 문헌에서는 고빈도와 적절한 분포를 가지는 중심어를 가진 문장을 강조함
    • KWIC(Keyword-in-context)
      • 동적 요약 방법으로 문헌에서 하나 이상의(Window)” 보여주는 방법
 

 

블로그 이미지

나뷜나뷜

,