8.1 정보 검색 시스템 평가
- 정보 검색의 유효성 측정을 위해 요구되는 실험 컬렉션
- 문헌 컬렉션
- 질의로 표현 가능한 정보 요구의 실험 집합
- 각 질의-문헌 쌍에 대해서 적합과 비적합을 이진 평가하는 적합성 판단 집합
- 정보 검색 시스템의 평가는 적합성(Relevance)을 중심으로 함
- 이진 평가를 위한 이빈 분류의 결정은 적합성 판단의 평가 표준(gold standard, ground truth)으로 주어짐
- 평균적인 성능을 보이기 위해서는 실험 문헌 컬렉션과 정보 요구 집합이 적당히 커야하며, 일반적으로 최소 50개 정도의 정보 요구가 필요함
- 적합성은 질의가 아닌 정보 요구(Information need)와의 관계로 평가됨
- 성능 조정을 위해 다양한 가중치들이 사용될 수 있으며, 시스템 성능 보고를 위해서는 이러한 가중치를 포함하기보다는 개발 실험 컬렉션을 가지고 개발 실험 컬렉션에 대해 인수를 조정해야 함
8.2 표준 실험 컬렉션
- Cranfield: 가장 기초적인 실험 컬렉션
- TREC(Text Retrieval Conference): 약 528,000개 이상의 뉴스 및 FBIS 기사에 대한 150개의 정보 요구
- NIST: 2500 만 페이지로 구성된 GOV2 웹페이지 컬렉션
- NTCIR(NII Test Collection for IR Systems): 교차-언어 정보 검색을 위한 실험 컬렉션
- CLEF(Cross Language Evaluation Forum): 유럽 언어와 교차 언어 정보 검색
- Reuters-21578, Reuters-RCV1: 각각 21,578개, 806,791개의 문헌을 포함하는 가장 많이 사용되는 실험 컬렉션
- 20 Newsgroups: 중복 기사를 제외하면 약 18,941개의 기사로 구성된 실험 컬렉션
8.3 순위 없는 검색 집합의 평가
- 정확률(Precision)
- #(검색된 적합 문헌) / #(검색 문헌) = P(적합 | 검색)
- P = TP / (TP + FP)
- 재현율(Recall)
- #(검색된 적합 문헌) / #(적합 문헌) = P(검색 | 적합)
- P = TP / (TP + FN)
- 정밀도(Accuracy)
- Accuracy = (TP + TN) / (TP + FP + FN + TN)
- 일반적으로 일정 비율의 긍정 오류를 묵인하는 재현율을 얻고자 함
- F 척도(F measure)
- 정확률과 재현율의 가중치 조화 평균
- 모든 문헌을 검색하는 것으로 항상 100% 재현율을 얻을 수 있기 때문에 같은 과정으로 항상 50%의 산술 평균을 얻을 수 있기 때문에 조화 평균을 이용 (산술 평균은 부적합 함)
- 균형 F 척도(Balanced F measure)
- 정확률과 재현율에 동등한 가중치를 줌 (α = ½, β = 1)
8.4 순위 검색 결과의 평가
- 정확률-재현율 곡선(Precision-recall curve)
- (k + 1)번째 검색된 문헌이 부적합이라면 재현율은 k개의 최상우 ㅣ문서오 ㅏ같지만 정확률은 떨어지며, 만일 적합이면 정확률과 재현율이 증가하여 특유의 톱모양 모습을 나타냄
- 보간 정확률(Interpolated precision)
- 들쭉날쭉한 변동을 제거하는 표준적인 방법
- 11-수준 평균 정확률(11-point interpolated average precision)
- TREC Ad Hoc 평가에서 사용되는 전통적인 방법
- 특히 좋은 차별성과 안정성을 보여주는 평가 척도로 평균 정확률(MAP, Mean Average Precision)을 주로 이용
- k-문서 정확률(Precision at k)
- 첫 페이지 혹은 처음 세 페이지에서 좋은 결과가 얼마나 많은가가 더 중요하므로 10 ~ 30개의 문헌 처럼 적은 수의 결과 집합에 대한 정확도를 측정함
- 단점: 가장 안정성이 낮고 질의에 대한 적합 문헌의 총 개수가 k-문서 정확률에 강한 영향을 미치기 때문에 평균을 내기 어려움
- R-정확률(R-precision)
- 알려진 적합 문헌 Rel의 집합이 필요하며, 이 집합으로부터 최상위 Rel 문헌의 정확률을 계산함
- R-정확률은 곡선상의 한 점만을 표현하므로 최적의 점(최대 F-척도)이나 특정 어플리케이션에 대해 관심이 있는 검색 수준(k-문서 정확률)보다 손익 분기점(Break-even point)에 관심을 가져야 하는지는 명확하지 않지만 MAP과는 높은 상관관계를 보임
- ROC 곡선(Receiver operating characteristics curve)
- 긍정 오류 비율(FP / (FP + TN)) 또는 1-특정성(TN / (FP + TN))에 대한 긍정 정답 비율 또는 민감도(Sensitivity)(=재현율)를 나타냄
- 누적 이득(Cumulative gain) 또는 정규화 할인 누적 이득(NDCG, Normalized Discounted Cumulative Gain)
- 특히 순위화를 위한 기계 학습과 같은 분야에서 적용이 증가하고 있음
- 비인진법 개념의 상황에 맞게 설계되었으며, k-문서 정확률처럼 k번째 상위 검색 결과를 평가함
8.5 적합성 평가
- 풀링(Pooling)
- 현대의 커다란 컬렉션에서 각 질의에 대해 문헌의 일부에 대해 적합성을 평가하기 위한 가장 표준적인 방법
- 정보 검색 시스템이 검색한 최상위 k개의 문헌으로 구성된 컬렉션의 일부와 Boolean 키워드 검색의 결과 또는 대화식으로 전문 검색사가 찾은 문헌과 같은 다른 자료에 대해서 적합성을 평가함
- Kappa 통계치(Kappa statistic)
- 문헌 적합성은 개개인에 따라 다르지만 일반적으로 Kappa 통계치를 사용함
- 범주 평가를 위해서 설계되었으며, 단순 일치도를 기회 일치도로 교정함
- 적합성과 한계 적합성(Marginal relevance)
- 사용자가 특정 문헌을 본 이후에도 이전에 본 문헌이 여전히 유효성을 가지는가를 판단하는 문제
8.6 대체적 전망: 시스템 품질과 사용자 유용도
- 사용자 유용도(User utility)
- 각 정보 요구에 대해 시스템이 제시하는 결과에 각 사용자가 얼마나 만족하는가를 평가하는 것
- 궁극적 목표
- 적합성, 속도, 사용자 인터페이스를 바탕으로 사용자 만족도를 정량적으로 측정하는 것
- 민속학적 인터뷰 기법(Ethnographical interview technique)
- 시스템 문제
- 색인 속도
- 어떤 문헌 길이 분포에 대해서 시간당 몇 개의 문헌을 색인할 수 있나?
- 검색 속도
- 색인 크기에 따른 대기 시간은 얼마인가?
- 질의 언어의 표현력
- 복잡한 질의를 얼마나 빨리 해결할 수 있는가?
- 문헌 컬렉션의 크기
- 광범위한 주제에 걸쳐 분포된 정보를 가지는 문헌이나 컬렉션의 크기는 얼마인가?
- 배치된 시스템의 정제
- A/B 실험(A/B test)
- 현재 시스템에서 1 ~ 10% 사용자들에게 변형된 시스템을 제공하여 조사하는 것
- 클릭 로그 분석(Clickthrough log analysis) 혹은 클릭 스트림 마이닝(Clickstream mining)의 분석 방법이 있음
- 변화 효과 측정을 위해 복수 선형 회귀 분석(Multiple linear regression)과 같은 표준 다변수 통계 분석(Standard multivariate statistical analysis) 방법을 이용할 수 있음
8.7 결과 요약
- 요약(Snippet)
- 정적 요약(Static summary)
- 질의에 상관없이 동일한 요약 방법
- 동적 요약(Dynamic summary) 또는 질의 기반 요약(Query dependent summary)
- 질의에서 추론되는 사용자의 정보 요구에 맞추어 제공되는 요약 방법
- 문서 요약(Text summarization)
- 대부분의 연구는 여전히 원 문헌에서 문장을 선택하는데 중점을 두고 있으며, 어떻게 좋은 문장을 선택하느냐에 초점을 맞추고 있음
- 전형적으로 위치 요소와 내용 요소를 결합하여 요약을 하고 있음
- 위치 요소
- 문헌의 처음과 마지막 문단과 문단의 처음과 마지막 문장을 선호함
- 내용 요소
- 전체 컬렉션에서 낮은 문헌 빈도를 가지지만 반환되는 특정 문헌에서는 고빈도와 적절한 분포를 가지는 중심어를 가진 문장을 강조함
- KWIC(Keyword-in-context)
- 동적 요약 방법으로 문헌에서 하나 이상의 “창(Window)”을 보여주는 방법
'Study > Information Retrieval' 카테고리의 다른 글
정보검색론 공부 - XML 검색 (0) | 2019.01.23 |
---|---|
정보검색론 공부 - 적합성 피드백과 질의 확장 (0) | 2019.01.23 |
정보검색론 공부 - 완전한 검색 시스템에서의 점수 계산 (0) | 2019.01.23 |
정보검색론 공부 - 점수계산, 용어 가중치, 벡터 공간 모델 (0) | 2019.01.23 |
정보검색론 공부 - 색인 압축 (0) | 2019.01.23 |