'information retrieval'에 해당되는 글 20건

2019.01.23 정보검색론 공부 - 정보 검색 평가 1

정보검색론 공부 - 정보 검색 평가

Study/Information Retrieval 2019. 1. 23. 21:09

8.1 정보 검색 시스템 평가

정보 검색의 유효성 측정을 위해 요구되는 실험 컬렉션

문헌 컬렉션
질의로 표현 가능한 정보 요구의 실험 집합
각 질의-문헌 쌍에 대해서 적합과 비적합을 이진 평가하는 적합성 판단 집합

정보 검색 시스템의 평가는 적합성(Relevance)을 중심으로 함
이진 평가를 위한 이빈 분류의 결정은 적합성 판단의 평가 표준(gold standard, ground truth)으로 주어짐
평균적인 성능을 보이기 위해서는 실험 문헌 컬렉션과 정보 요구 집합이 적당히 커야하며, 일반적으로 최소 50개 정도의 정보 요구가 필요함
적합성은 질의가 아닌 정보 요구(Information need)와의 관계로 평가됨
성능 조정을 위해 다양한 가중치들이 사용될 수 있으며, 시스템 성능 보고를 위해서는 이러한 가중치를 포함하기보다는 개발 실험 컬렉션을 가지고 개발 실험 컬렉션에 대해 인수를 조정해야 함

8.2 표준 실험 컬렉션

Cranfield: 가장 기초적인 실험 컬렉션
TREC(Text Retrieval Conference): 약 528,000개 이상의 뉴스 및 FBIS 기사에 대한 150개의 정보 요구
NIST: 2500 만 페이지로 구성된 GOV2 웹페이지 컬렉션
NTCIR(NII Test Collection for IR Systems): 교차-언어 정보 검색을 위한 실험 컬렉션
CLEF(Cross Language Evaluation Forum): 유럽 언어와 교차 언어 정보 검색
Reuters-21578, Reuters-RCV1: 각각 21,578개, 806,791개의 문헌을 포함하는 가장 많이 사용되는 실험 컬렉션
20 Newsgroups: 중복 기사를 제외하면 약 18,941개의 기사로 구성된 실험 컬렉션

8.3 순위 없는 검색 집합의 평가

정확률(Precision)

#(검색된 적합 문헌) / #(검색 문헌) = P(적합 | 검색)
P = TP / (TP + FP)

재현율(Recall)

#(검색된 적합 문헌) / #(적합 문헌) = P(검색 | 적합)
P = TP / (TP + FN)

정밀도(Accuracy)

Accuracy = (TP + TN) / (TP + FP + FN + TN)

일반적으로 일정 비율의 긍정 오류를 묵인하는 재현율을 얻고자 함
F 척도(F measure)

정확률과 재현율의 가중치 조화 평균

모든 문헌을 검색하는 것으로 항상 100% 재현율을 얻을 수 있기 때문에 같은 과정으로 항상 50%의 산술 평균을 얻을 수 있기 때문에 조화 평균을 이용 (산술 평균은 부적합 함)

균형 F 척도(Balanced F measure)

정확률과 재현율에 동등한 가중치를 줌 (α = ½, β = 1)

8.4 순위 검색 결과의 평가

정확률-재현율 곡선(Precision-recall curve)

(k + 1)번째 검색된 문헌이 부적합이라면 재현율은 k개의 최상우 ㅣ문서오 ㅏ같지만 정확률은 떨어지며, 만일 적합이면 정확률과 재현율이 증가하여 특유의 톱모양 모습을 나타냄

보간 정확률(Interpolated precision)

들쭉날쭉한 변동을 제거하는 표준적인 방법

11-수준 평균 정확률(11-point interpolated average precision)

TREC Ad Hoc 평가에서 사용되는 전통적인 방법
특히 좋은 차별성과 안정성을 보여주는 평가 척도로 평균 정확률(MAP, Mean Average Precision)을 주로 이용

k-문서 정확률(Precision at k)

첫 페이지 혹은 처음 세 페이지에서 좋은 결과가 얼마나 많은가가 더 중요하므로 10 ~ 30개의 문헌 처럼 적은 수의 결과 집합에 대한 정확도를 측정함
단점: 가장 안정성이 낮고 질의에 대한 적합 문헌의 총 개수가 k-문서 정확률에 강한 영향을 미치기 때문에 평균을 내기 어려움

R-정확률(R-precision)

알려진 적합 문헌 Rel의 집합이 필요하며, 이 집합으로부터 최상위 Rel 문헌의 정확률을 계산함
R-정확률은 곡선상의 한 점만을 표현하므로 최적의 점(최대 F-척도)이나 특정 어플리케이션에 대해 관심이 있는 검색 수준(k-문서 정확률)보다 손익 분기점(Break-even point)에 관심을 가져야 하는지는 명확하지 않지만 MAP과는 높은 상관관계를 보임

ROC 곡선(Receiver operating characteristics curve)

긍정 오류 비율(FP / (FP + TN)) 또는 1-특정성(TN / (FP + TN))에 대한 긍정 정답 비율 또는 민감도(Sensitivity)(=재현율)를 나타냄

누적 이득(Cumulative gain) 또는 정규화 할인 누적 이득(NDCG, Normalized Discounted Cumulative Gain)

특히 순위화를 위한 기계 학습과 같은 분야에서 적용이 증가하고 있음
비인진법 개념의 상황에 맞게 설계되었으며, k-문서 정확률처럼 k번째 상위 검색 결과를 평가함

8.5 적합성 평가

풀링(Pooling)

현대의 커다란 컬렉션에서 각 질의에 대해 문헌의 일부에 대해 적합성을 평가하기 위한 가장 표준적인 방법
정보 검색 시스템이 검색한 최상위 k개의 문헌으로 구성된 컬렉션의 일부와 Boolean 키워드 검색의 결과 또는 대화식으로 전문 검색사가 찾은 문헌과 같은 다른 자료에 대해서 적합성을 평가함

Kappa 통계치(Kappa statistic)

문헌 적합성은 개개인에 따라 다르지만 일반적으로 Kappa 통계치를 사용함
범주 평가를 위해서 설계되었으며, 단순 일치도를 기회 일치도로 교정함

적합성과 한계 적합성(Marginal relevance)

사용자가 특정 문헌을 본 이후에도 이전에 본 문헌이 여전히 유효성을 가지는가를 판단하는 문제

8.6 대체적 전망: 시스템 품질과 사용자 유용도

사용자 유용도(User utility)

각 정보 요구에 대해 시스템이 제시하는 결과에 각 사용자가 얼마나 만족하는가를 평가하는 것
궁극적 목표

적합성, 속도, 사용자 인터페이스를 바탕으로 사용자 만족도를 정량적으로 측정하는 것

민속학적 인터뷰 기법(Ethnographical interview technique)

시스템 문제

색인 속도

어떤 문헌 길이 분포에 대해서 시간당 몇 개의 문헌을 색인할 수 있나?

검색 속도

색인 크기에 따른 대기 시간은 얼마인가?

질의 언어의 표현력

복잡한 질의를 얼마나 빨리 해결할 수 있는가?

문헌 컬렉션의 크기

광범위한 주제에 걸쳐 분포된 정보를 가지는 문헌이나 컬렉션의 크기는 얼마인가?

배치된 시스템의 정제

A/B 실험(A/B test)

현재 시스템에서 1 ~ 10% 사용자들에게 변형된 시스템을 제공하여 조사하는 것
클릭 로그 분석(Clickthrough log analysis) 혹은 클릭 스트림 마이닝(Clickstream mining)의 분석 방법이 있음
변화 효과 측정을 위해 복수 선형 회귀 분석(Multiple linear regression)과 같은 표준 다변수 통계 분석(Standard multivariate statistical analysis) 방법을 이용할 수 있음

8.7 결과 요약

요약(Snippet)

정적 요약(Static summary)

질의에 상관없이 동일한 요약 방법

동적 요약(Dynamic summary) 또는 질의 기반 요약(Query dependent summary)

질의에서 추론되는 사용자의 정보 요구에 맞추어 제공되는 요약 방법

문서 요약(Text summarization)

대부분의 연구는 여전히 원 문헌에서 문장을 선택하는데 중점을 두고 있으며, 어떻게 좋은 문장을 선택하느냐에 초점을 맞추고 있음
전형적으로 위치 요소와 내용 요소를 결합하여 요약을 하고 있음
위치 요소

문헌의 처음과 마지막 문단과 문단의 처음과 마지막 문장을 선호함

내용 요소

전체 컬렉션에서 낮은 문헌 빈도를 가지지만 반환되는 특정 문헌에서는 고빈도와 적절한 분포를 가지는 중심어를 가진 문장을 강조함

KWIC(Keyword-in-context)

동적 요약 방법으로 문헌에서 하나 이상의 “창(Window)”을 보여주는 방법

참고: Introduction to Information Retrieval

저작자표시 비영리 변경금지

'Study > Information Retrieval' 카테고리의 다른 글

정보검색론 공부 - XML 검색 (0)	2019.01.23
정보검색론 공부 - 적합성 피드백과 질의 확장 (0)	2019.01.23
정보검색론 공부 - 완전한 검색 시스템에서의 점수 계산 (0)	2019.01.23
정보검색론 공부 - 점수계산, 용어 가중치, 벡터 공간 모델 (0)	2019.01.23
정보검색론 공부 - 색인 압축 (0)	2019.01.23

블로그 이미지

나뷜나뷜

,

달력

티스토리툴바