'information retrieval'에 해당되는 글 20건

2019.01.23 정보검색론 공부 - 웹 수집과 색인

정보검색론 공부 - 웹 수집과 색인

Study/Information Retrieval 2019. 1. 23. 21:38

20.1 개요

수집기가 제공해야하는 자질들

견고성(Robustness)

웹 스파이더와 같은 함정으로부터 원상복귀 될 수 있도록 설계되어야 함
웹스파이더(Spider trap)

웹에서 수집기가 특정 도메인으로부터 무한한 수의 페이지를 가져오는 과정에서 정지하도록 유도하는 웹 페이지들을 생성함

공손함(Politeness)

웹 서버는 수집기가 자신들이 방문할 수 있는 빈도를 통제하는 명시적이고 묵시적인 정책을 가지고 있음

수집기가 제공하면 좋은 특징

분산성(Distributed)
크기 조정성(Scalable)
성능 및 효율성(Performance and efficiency)
우수성(Quality)
최신성(Freshness)
확장성(Extensible)

20.2 수집

URL 프론티어(URL frontier)

수집기 쓰레드가 URL을 요청할 때마다 특정 순서로 URL을 하나씩 빼줌
목적

호스트로 한 번에 하나의 연결만 이뤄지는 것
호스트로 연속적인 요청 간 몇 초의 대기 시간을 주는 것
우선권이 높은 페이지가 우선적으로 수집되는 것을 보장하는 것

F 전방 큐(Front queues)

우선권을 구현함

B 후방 큐(Back queues)

공손함을 구현함

20.3 분산 색인

용어에 의한 분할(Partitioning by terms, term partitioning) 혹은 문헌에 의한 분할(Partitioning by documents, document partitioning)
부하 분산(Load balancing)

질의 용어들의 분산과 시간에 따라 떠돌거나 갑작스런 과열을 보이게 될 수 있는 단어들의 동시 발생성에 의해 좌우됨

참고: Introduction to Information Retrieval

저작자표시 비영리 변경금지

'Study > Information Retrieval' 카테고리의 다른 글

PageRank 알고리즘 공부 (0)	2019.04.07
정보검색론 공부 - 링크 분석 (0)	2019.01.23
정보검색론 공부 - 행렬 분해와 잠재 의미 색인, 웹 검색의 기초 (0)	2019.01.23
정보검색론 공부 - 계층 군집화 (0)	2019.01.23
정보검색론 공부 - 평면 군집화 (0)	2019.01.23

블로그 이미지

나뷜나뷜

,

달력

티스토리툴바