20.1 개요
- 수집기가 제공해야하는 자질들
- 견고성(Robustness)
- 웹 스파이더와 같은 함정으로부터 원상복귀 될 수 있도록 설계되어야 함
- 웹스파이더(Spider trap)
- 웹에서 수집기가 특정 도메인으로부터 무한한 수의 페이지를 가져오는 과정에서 정지하도록 유도하는 웹 페이지들을 생성함
- 공손함(Politeness)
- 웹 서버는 수집기가 자신들이 방문할 수 있는 빈도를 통제하는 명시적이고 묵시적인 정책을 가지고 있음
- 수집기가 제공하면 좋은 특징
- 분산성(Distributed)
- 크기 조정성(Scalable)
- 성능 및 효율성(Performance and efficiency)
- 우수성(Quality)
- 최신성(Freshness)
- 확장성(Extensible)
20.2 수집
- URL 프론티어(URL frontier)
- 수집기 쓰레드가 URL을 요청할 때마다 특정 순서로 URL을 하나씩 빼줌
- 목적
- 호스트로 한 번에 하나의 연결만 이뤄지는 것
- 호스트로 연속적인 요청 간 몇 초의 대기 시간을 주는 것
- 우선권이 높은 페이지가 우선적으로 수집되는 것을 보장하는 것
- F 전방 큐(Front queues)
- 우선권을 구현함
- B 후방 큐(Back queues)
- 공손함을 구현함
20.3 분산 색인
- 용어에 의한 분할(Partitioning by terms, term partitioning) 혹은 문헌에 의한 분할(Partitioning by documents, document partitioning)
- 부하 분산(Load balancing)
- 질의 용어들의 분산과 시간에 따라 떠돌거나 갑작스런 과열을 보이게 될 수 있는 단어들의 동시 발생성에 의해 좌우됨
'Study > Information Retrieval' 카테고리의 다른 글
PageRank 알고리즘 공부 (0) | 2019.04.07 |
---|---|
정보검색론 공부 - 링크 분석 (0) | 2019.01.23 |
정보검색론 공부 - 행렬 분해와 잠재 의미 색인, 웹 검색의 기초 (0) | 2019.01.23 |
정보검색론 공부 - 계층 군집화 (0) | 2019.01.23 |
정보검색론 공부 - 평면 군집화 (0) | 2019.01.23 |