뒹굴뒹굴 :: 정보검색론 공부 - XML 검색

정보검색론 공부 - XML 검색

Study/Information Retrieval 2019. 1. 23. 21:16

10.1 XML 기본 개념들

XML문서는 라벨-부착 순서 트리(Ordered, labeled tree)이며, 각 정점은 XML 요소(XML element)로 시작 태그와 끝 태그를 사용하여 표시됨

각 요소들은 하나 이상의 XML 속성(XML attribute)를 가질 수 있음

잎 정점(Leaf nodes)

XML 문서의 트리 형식 DOM 객체 표현 시 말단의 요소들

내부 정점(Internal nodes)

트리 형식에서 중간 단계의 요소들로 문서의 구조를 표시하거나 메타데이터를 기록함

문서 객체 모델(DOM, Document Object Model)

XML 문서를 접근하고 처리하는 표준
요소, 속성, 텍스트를 트리의 정점으로 표현함
DOM API를 이용하여 트리의 루트 정점부터 각 부모 정점에서 자식 정점으로 하강하며 처리할 수 있음

XPath

XML 문서 컬렉션에서 경로를 열거하는 표준
/A/B

루트요소에서부터 시작하여 A 요소를 부모로 갖는 모든 B 요소

A//B

A 요소 내에 나타나는 모든 B 요소

XML 문맥(XML context)

XML 문서 컬렉션에서 경로를 의미함

스키마(Schema)

어떤 응용 분야에서 사용할 수 있는 문서 구조에 대한 제약을 표시함
XML 문서 스키마에 대한 표준

XML DTD(Document Type Definition)
XML Schema

NEXI(Narrowed Extended XPath I)

XML 질의에 대한 일반적인 형식
관계형 속성 제약(Relational attribute constraints)

요소에 대한 제약 조건을 질의

10.2 XML 검색의 문제점

비구조 검색에서와는 달리 사용자는 문서의 일부(즉 XML 요소)가 반환되기를 바람

문제는 어떤 요소를 반환시켜야 하는가?
구조 문서 검색 원리(Structured document retrieval principle)

어떤 질의에 대해 시스템은 항상 문서의 가장 작은 부분을 검색해야함
문서에서 가장 적절한 부분을 선택하기 위한 하나의 기준

문서의 어떤 부분을 색인할 것인가?

색인 단위를 정의하는 접근 방법

정점들을 겹치지 않게 묶어서 의사 문서(Pseudo-document)를 구성하는 방법

단점: 의사 문서가 결합성이 있는 단위가 아니기 때문에 사용자들이 이해하기 어려움

가장 큰 요소를 색인 단위로 사용하는 방법
큰 단위를 검색한 후 적합한 부분을 찾는 방법(하향식) 대신 모든 단말 정점을 검색하여 적합한 정점을 찾은 다음 후처리 과정에서 이 정점을 확장(상향식)하는 것도 가능함

위의 방법들은 어떤 문서가 질의에 아주 적합한 부분을 가지고 있다고 하더라도 문서 전체와 질의 유사도는 낮을 수 있기 때문에 많은 질의에 대해 가장 적합한 부분을 검색하는데 실패할 수 있음
가장 제약이 적은 방법은 모든 요소들을 색인하는 것

많은 XML 요소들은 의미적으로 검색결과가 될 수 없음
중첩 요소(Nested element)때문에 검색 결과에 중복이 많이 발생하게 됨

중복 발생을 줄이기 위한 제한 전략

작은 원소들을 모두 제거
사용자가 찾지 않는 모든 요소 형을 제거(사용자 로그 정보를 가지고 있는 XML 검색 시스템이 필요함)
사용자가 적합성을 판단하지 않는 모든 요소 형을 제거(적합성 평가 사용이 가능한 경우)
시스템 설계자나 사서가 검색 결과로 유용하다고 판단한 요소들만 유지

스키마 이질성(Schema heterogeneity) 혹은 스키마 다양성(Schema diversity)

한 컬렉션 내에 여러 가지 다른 스키마가 존재하는 경우

확장 질의(Extended queries)

사용자 질의에 나타나는 부모-자식 관계를 중간에 임의 숫자의 정점이 나타나도 되는 후손 관계로 취급함으로써 사용자를 지원함
예를 들어 book//#”Gates”와 같이 book의 하부 구조 어딘가에 Gates라는 용어를 포함하는 책을 검색할 수 있음

10.3 XML 검색을 위한 벡터 공간 모델

비구조 검색에서 어휘 용어에 대한 하나의 벡터 공간 차원이 존재하는 반면 XML 검색을 위해서는 XML 트리에서 해당 단어의 위치를 쌍으로 묶은 것에 대하여 각각 다른 벡터 공간 차원을 부여하는 것임
어휘 부분 트리(Lexicalized subtrees)

벡터 공간에서 각 차원을 나타냄
적어도 한 개 이상의 어휘를 갖는 부분 트리를 의미함

공간 차원 수와 검색 결과의 정확성은 서로 트레이드오프 관계임

차원수를 줄이면 정확성이 떨어짐
이를 위해 한 개의 어휘 용어만 갖는 부분 트리(모든 XML-문맥/용어 쌍만 차원으로 취급하는 방법이 있음

XML-문맥/용어 쌍을 구조 용어(Structural term)이라고 함

만약 문서가 질의 구조와 매우 비슷하다면 좀 더 좋은 점수를 부여 받아야 함

문맥 유사 함수(Context Resemblance Measure)

질의에 나타난 경로와 문서에 나타난 경로의 유사도를 계산하는 간단한 방법

10.4 XML 검색의 평가

INEX(INitiative for the Evaluation of XML retrieval)

XML 검색 연구에 대한 가장 중요한 모임으로 참조 컬렉션, 질의 집합, 적합성 판정 등을 연구함
정보 요구(토픽)를 2가지로 구별함

내용 토픽(CO topics: content only topics)
내용-구조 토픽(CAS topics: content-and-structure topics)

CAS 토픽은 구조 및 내용에 대한 제약을 모두 포함하기 때문에 적합성 판정이 비구조 검색의 경우보다 어려우며, 컴포넌트 범위(component coverage)와 토픽 적합성(Topic relevance)을 적합성의 두 수직 축으로 사용함

이산화 함수(discretization function)

평가 결과를 적합한 경우 1로 나머지는 0으로 사상함

10.5 텍스트-중심 대 자료-중심 XML 검색

문서-중심 XML(Text-centric XML)

XML 구조가 질의와 문서에 나오는 텍스트를 매칭시키는 틀 역할을 함
구조와 텍스트 모두 중요하지만 텍스트에 더 중점을 둠
텍스트-중심 구조에서는 조인과 순서제약(Ordering constraints)이 어려움

자료-중심 XML(Data-centric XML)

숫자와 같이 텍스트가 아닌 속성 값들을 저장함

참고: Introduction to Information Retrieval

저작자표시 비영리 변경금지 (새창열림)

'Study > Information Retrieval' 카테고리의 다른 글

정보검색론 공부 - 정보 검색을 위한 언어 모델 (0)	2019.01.23
정보검색론 공부 - 확률 정보 검색 (0)	2019.01.23
정보검색론 공부 - 적합성 피드백과 질의 확장 (0)	2019.01.23
정보검색론 공부 - 정보 검색 평가 (1)	2019.01.23
정보검색론 공부 - 완전한 검색 시스템에서의 점수 계산 (0)	2019.01.23

블로그 이미지

나뷜나뷜

,

달력

티스토리툴바