10.1 XML 기본 개념들

  • XML문서는 라벨-부착 순서 트리(Ordered, labeled tree)이며, 정점은 XML 요소(XML element) 시작 태그와 태그를 사용하여 표시됨
    • 요소들은 하나 이상의 XML 속성(XML attribute) 가질 있음
  • 정점(Leaf nodes)
    • XML 문서의 트리 형식 DOM 객체 표현 말단의 요소들
  • 내부 정점(Internal nodes)
    • 트리 형식에서 중간 단계의 요소들로 문서의 구조를 표시하거나 메타데이터를 기록함
  • 문서 객체 모델(DOM, Document Object Model)
    • XML 문서를 접근하고 처리하는 표준
    • 요소, 속성, 텍스트를 트리의 정점으로 표현함
    • DOM API 이용하여 트리의 루트 정점부터 부모 정점에서 자식 정점으로 하강하며 처리할 있음
  • XPath
    • XML 문서 컬렉션에서 경로를 열거하는 표준
    • /A/B
      • 루트요소에서부터 시작하여 A 요소를 부모로 갖는 모든 B 요소
    • A//B
      • A 요소 내에 나타나는 모든 B 요소
  • XML 문맥(XML context)
    • XML 문서 컬렉션에서 경로를 의미함
  • 스키마(Schema)
    • 어떤 응용 분야에서 사용할 있는 문서 구조에 대한 제약을 표시함
    • XML 문서 스키마에 대한 표준
      • XML DTD(Document Type Definition)
      • XML Schema
    • NEXI(Narrowed Extended XPath I)
      • XML 질의에 대한 일반적인 형식
      • 관계형 속성 제약(Relational attribute constraints)
        • 요소에 대한 제약 조건을 질의
 

10.2 XML 검색의 문제점

  • 비구조 검색에서와는 달리 사용자는 문서의 일부( XML 요소) 반환되기를 바람
    • 문제는 어떤 요소를 반환시켜야 하는가?
    • 구조 문서 검색 원리(Structured document retrieval principle)
      • 어떤 질의에 대해 시스템은 항상 문서의 가장 작은 부분을 검색해야함
      • 문서에서 가장 적절한 부분을 선택하기 위한 하나의 기준
  • 문서의 어떤 부분을 색인할 것인가?
    • 색인 단위를 정의하는 접근 방법
      • 정점들을 겹치지 않게 묶어서 의사 문서(Pseudo-document) 구성하는 방법
        • 단점: 의사 문서가 결합성이 있는 단위가 아니기 때문에 사용자들이 이해하기 어려움
      • 가장 요소를 색인 단위로 사용하는 방법
      • 단위를 검색한 적합한 부분을 찾는 방법(하향식) 대신 모든 단말 정점을 검색하여 적합한 정점을 찾은 다음 후처리 과정에서 정점을 확장(상향식)하는 것도 가능함
    • 위의 방법들은 어떤 문서가 질의에 아주 적합한 부분을 가지고 있다고 하더라도 문서 전체와 질의 유사도는 낮을 있기 때문에 많은 질의에 대해 가장 적합한 부분을 검색하는데 실패할 있음
    • 가장 제약이 적은 방법은 모든 요소들을 색인하는
      • 많은 XML 요소들은 의미적으로 검색결과가 없음
      • 중첩 요소(Nested element)때문에 검색 결과에 중복이 많이 발생하게
    • 중복 발생을 줄이기 위한 제한 전략
      • 작은 원소들을 모두 제거
      • 사용자가 찾지 않는 모든 요소 형을 제거(사용자 로그 정보를 가지고 있는 XML 검색 시스템이 필요함)
      • 사용자가 적합성을 판단하지 않는 모든 요소 형을 제거(적합성 평가 사용이 가능한 경우)
      • 시스템 설계자나 사서가 검색 결과로 유용하다고 판단한 요소들만 유지
    • 스키마 이질성(Schema heterogeneity) 혹은 스키마 다양성(Schema diversity)
      • 컬렉션 내에 여러 가지 다른 스키마가 존재하는 경우
    • 확장 질의(Extended queries)
      • 사용자 질의에 나타나는 부모-자식 관계를  중간에 임의 숫자의 정점이 나타나도 되는 후손 관계로 취급함으로써 사용자를 지원함
      • 예를 들어 book//#”Gates” 같이 book 하부 구조 어딘가에 Gates라는 용어를 포함하는 책을 검색할 있음
 

10.3 XML 검색을 위한 벡터 공간 모델

  • 비구조 검색에서 어휘 용어에 대한 하나의 벡터 공간 차원이 존재하는 반면 XML 검색을 위해서는 XML 트리에서 해당 단어의 위치를 쌍으로 묶은 것에 대하여 각각 다른 벡터 공간 차원을 부여하는 것임
  • 어휘 부분 트리(Lexicalized subtrees)
    • 벡터 공간에서 차원을 나타냄
    • 적어도 이상의 어휘를 갖는 부분 트리를 의미함
  • 공간 차원 수와 검색 결과의 정확성은 서로 트레이드오프 관계임
    • 차원수를 줄이면 정확성이 떨어짐
    • 이를 위해 개의 어휘 용어만 갖는 부분 트리(모든 XML-문맥/용어 쌍만 차원으로 취급하는 방법이 있음
      • XML-문맥/용어 쌍을 구조 용어(Structural term)이라고
  • 만약 문서가 질의 구조와 매우 비슷하다면 좋은 점수를 부여 받아야
    • 문맥 유사 함수(Context Resemblance Measure)
      • 질의에 나타난 경로와 문서에 나타난 경로의 유사도를 계산하는 간단한 방법
 

10.4 XML 검색의 평가

  • INEX(INitiative for the Evaluation of XML retrieval)
    • XML 검색 연구에 대한 가장 중요한 모임으로 참조 컬렉션, 질의 집합, 적합성 판정 등을 연구함
    • 정보 요구(토픽) 2가지로 구별함
      • 내용 토픽(CO topics: content only topics)
      • 내용-구조 토픽(CAS topics: content-and-structure topics)
        • CAS 토픽은 구조 내용에 대한 제약을 모두 포함하기 때문에 적합성 판정이 비구조 검색의 경우보다 어려우며, 컴포넌트 범위(component coverage) 토픽 적합성(Topic relevance) 적합성의 수직 축으로 사용함
    • 이산화 함수(discretization function)
      • 평가 결과를 적합한 경우 1 나머지는 0으로 사상함
 

10.5 텍스트-중심 자료-중심 XML 검색

  • 문서-중심 XML(Text-centric XML)
    • XML 구조가 질의와 문서에 나오는 텍스트를 매칭시키는 역할을
    • 구조와 텍스트 모두 중요하지만 텍스트에 중점을
    • 텍스트-중심 구조에서는 조인과 순서제약(Ordering constraints) 어려움
  • 자료-중심 XML(Data-centric XML)
    • 숫자와 같이 텍스트가 아닌 속성 값들을 저장함

 

 

 

블로그 이미지

나뷜나뷜

,