10.1 XML 기본 개념들
- XML문서는 라벨-부착 순서 트리(Ordered, labeled tree)이며, 각 정점은 XML 요소(XML element)로 시작 태그와 끝 태그를 사용하여 표시됨
- 각 요소들은 하나 이상의 XML 속성(XML attribute)를 가질 수 있음
- 잎 정점(Leaf nodes)
- XML 문서의 트리 형식 DOM 객체 표현 시 말단의 요소들
- 내부 정점(Internal nodes)
- 트리 형식에서 중간 단계의 요소들로 문서의 구조를 표시하거나 메타데이터를 기록함
- 문서 객체 모델(DOM, Document Object Model)
- XML 문서를 접근하고 처리하는 표준
- 요소, 속성, 텍스트를 트리의 정점으로 표현함
- DOM API를 이용하여 트리의 루트 정점부터 각 부모 정점에서 자식 정점으로 하강하며 처리할 수 있음
- XPath
- XML 문서 컬렉션에서 경로를 열거하는 표준
- /A/B
- 루트요소에서부터 시작하여 A 요소를 부모로 갖는 모든 B 요소
- A//B
- A 요소 내에 나타나는 모든 B 요소
- XML 문맥(XML context)
- XML 문서 컬렉션에서 경로를 의미함
- 스키마(Schema)
- 어떤 응용 분야에서 사용할 수 있는 문서 구조에 대한 제약을 표시함
- XML 문서 스키마에 대한 표준
- XML DTD(Document Type Definition)
- XML Schema
- NEXI(Narrowed Extended XPath I)
- XML 질의에 대한 일반적인 형식
- 관계형 속성 제약(Relational attribute constraints)
- 요소에 대한 제약 조건을 질의
10.2 XML 검색의 문제점
- 비구조 검색에서와는 달리 사용자는 문서의 일부(즉 XML 요소)가 반환되기를 바람
- 문제는 어떤 요소를 반환시켜야 하는가?
- 구조 문서 검색 원리(Structured document retrieval principle)
- 어떤 질의에 대해 시스템은 항상 문서의 가장 작은 부분을 검색해야함
- 문서에서 가장 적절한 부분을 선택하기 위한 하나의 기준
- 문서의 어떤 부분을 색인할 것인가?
- 색인 단위를 정의하는 접근 방법
- 정점들을 겹치지 않게 묶어서 의사 문서(Pseudo-document)를 구성하는 방법
- 단점: 의사 문서가 결합성이 있는 단위가 아니기 때문에 사용자들이 이해하기 어려움
- 가장 큰 요소를 색인 단위로 사용하는 방법
- 큰 단위를 검색한 후 적합한 부분을 찾는 방법(하향식) 대신 모든 단말 정점을 검색하여 적합한 정점을 찾은 다음 후처리 과정에서 이 정점을 확장(상향식)하는 것도 가능함
- 위의 방법들은 어떤 문서가 질의에 아주 적합한 부분을 가지고 있다고 하더라도 문서 전체와 질의 유사도는 낮을 수 있기 때문에 많은 질의에 대해 가장 적합한 부분을 검색하는데 실패할 수 있음
- 가장 제약이 적은 방법은 모든 요소들을 색인하는 것
- 많은 XML 요소들은 의미적으로 검색결과가 될 수 없음
- 중첩 요소(Nested element)때문에 검색 결과에 중복이 많이 발생하게 됨
- 중복 발생을 줄이기 위한 제한 전략
- 작은 원소들을 모두 제거
- 사용자가 찾지 않는 모든 요소 형을 제거(사용자 로그 정보를 가지고 있는 XML 검색 시스템이 필요함)
- 사용자가 적합성을 판단하지 않는 모든 요소 형을 제거(적합성 평가 사용이 가능한 경우)
- 시스템 설계자나 사서가 검색 결과로 유용하다고 판단한 요소들만 유지
- 스키마 이질성(Schema heterogeneity) 혹은 스키마 다양성(Schema diversity)
- 한 컬렉션 내에 여러 가지 다른 스키마가 존재하는 경우
- 확장 질의(Extended queries)
- 사용자 질의에 나타나는 부모-자식 관계를 중간에 임의 숫자의 정점이 나타나도 되는 후손 관계로 취급함으로써 사용자를 지원함
- 예를 들어 book//#”Gates”와 같이 book의 하부 구조 어딘가에 Gates라는 용어를 포함하는 책을 검색할 수 있음
10.3 XML 검색을 위한 벡터 공간 모델
- 비구조 검색에서 어휘 용어에 대한 하나의 벡터 공간 차원이 존재하는 반면 XML 검색을 위해서는 XML 트리에서 해당 단어의 위치를 쌍으로 묶은 것에 대하여 각각 다른 벡터 공간 차원을 부여하는 것임
- 어휘 부분 트리(Lexicalized subtrees)
- 벡터 공간에서 각 차원을 나타냄
- 적어도 한 개 이상의 어휘를 갖는 부분 트리를 의미함
- 공간 차원 수와 검색 결과의 정확성은 서로 트레이드오프 관계임
- 차원수를 줄이면 정확성이 떨어짐
- 이를 위해 한 개의 어휘 용어만 갖는 부분 트리(모든 XML-문맥/용어 쌍만 차원으로 취급하는 방법이 있음
- XML-문맥/용어 쌍을 구조 용어(Structural term)이라고 함
- 만약 문서가 질의 구조와 매우 비슷하다면 좀 더 좋은 점수를 부여 받아야 함
- 문맥 유사 함수(Context Resemblance Measure)
- 질의에 나타난 경로와 문서에 나타난 경로의 유사도를 계산하는 간단한 방법
10.4 XML 검색의 평가
- INEX(INitiative for the Evaluation of XML retrieval)
- XML 검색 연구에 대한 가장 중요한 모임으로 참조 컬렉션, 질의 집합, 적합성 판정 등을 연구함
- 정보 요구(토픽)를 2가지로 구별함
- 내용 토픽(CO topics: content only topics)
- 내용-구조 토픽(CAS topics: content-and-structure topics)
- CAS 토픽은 구조 및 내용에 대한 제약을 모두 포함하기 때문에 적합성 판정이 비구조 검색의 경우보다 어려우며, 컴포넌트 범위(component coverage)와 토픽 적합성(Topic relevance)을 적합성의 두 수직 축으로 사용함
- 이산화 함수(discretization function)
- 평가 결과를 적합한 경우 1로 나머지는 0으로 사상함
10.5 텍스트-중심 대 자료-중심 XML 검색
- 문서-중심 XML(Text-centric XML)
- XML 구조가 질의와 문서에 나오는 텍스트를 매칭시키는 틀 역할을 함
- 구조와 텍스트 모두 중요하지만 텍스트에 더 중점을 둠
- 텍스트-중심 구조에서는 조인과 순서제약(Ordering constraints)이 어려움
- 자료-중심 XML(Data-centric XML)
- 숫자와 같이 텍스트가 아닌 속성 값들을 저장함
'Study > Information Retrieval' 카테고리의 다른 글
정보검색론 공부 - 정보 검색을 위한 언어 모델 (0) | 2019.01.23 |
---|---|
정보검색론 공부 - 확률 정보 검색 (0) | 2019.01.23 |
정보검색론 공부 - 적합성 피드백과 질의 확장 (0) | 2019.01.23 |
정보검색론 공부 - 정보 검색 평가 (1) | 2019.01.23 |
정보검색론 공부 - 완전한 검색 시스템에서의 점수 계산 (0) | 2019.01.23 |