'information retrieval'에 해당되는 글 20건

 

 

20.1 개요

  • 수집기가 제공해야하는 자질들
    • 견고성(Robustness)
      • 스파이더와 같은 함정으로부터 원상복귀 있도록 설계되어야
      • 웹스파이더(Spider trap)
        • 웹에서 수집기가 특정 도메인으로부터 무한한 수의 페이지를 가져오는 과정에서 정지하도록 유도하는 페이지들을 생성함
    • 공손함(Politeness)
      • 서버는 수집기가 자신들이 방문할 있는 빈도를 통제하는 명시적이고 묵시적인 정책을 가지고 있음
  • 수집기가 제공하면 좋은 특징
    • 분산성(Distributed)
    • 크기 조정성(Scalable)
    • 성능 효율성(Performance and efficiency)
    • 우수성(Quality)
    • 최신성(Freshness)
    • 확장성(Extensible)
 

20.2 수집

  • URL 프론티어(URL frontier)
    • 수집기 쓰레드가 URL 요청할 때마다 특정 순서로 URL 하나씩 빼줌
    • 목적
      • 호스트로 번에 하나의 연결만 이뤄지는
      • 호스트로 연속적인 요청 초의 대기 시간을 주는
      • 우선권이 높은 페이지가 우선적으로 수집되는 것을 보장하는
    • F 전방 (Front queues)
      • 우선권을 구현함
    • B 후방 (Back queues)
      • 공손함을 구현함
 

20.3 분산 색인

  • 용어에 의한 분할(Partitioning by terms, term partitioning) 혹은 문헌에 의한 분할(Partitioning by documents, document partitioning)
  • 부하 분산(Load balancing)
    • 질의 용어들의 분산과 시간에 따라 떠돌거나 갑작스런 과열을 보이게 있는 단어들의 동시 발생성에 의해 좌우됨

 

 

 

블로그 이미지

나뷜나뷜

,