'정보검색론'에 해당되는 글 20건

 

 

18.4 잠재 의미 색인

  • 잠재 의미 색인(LSI, Latent Semantic Indexing) 혹은 잠재 의미 분석(LSA, Latent Semantic Analysis)
    • 기존의 벡터 공간 표현은 자연어에서 발생하는 동의어(Synonymy), 다의어(Polysemy) 같은 문제를 다룰 없음
    • 질의어들을 저계수 근사 표현으로 만들어 질의어-문헌의 일치 정도를 저계수 표현으로 계산할 있음
  • LSI 특징
    • SVD 계산에 소요되는 비용이 너무
    • k 감소하면 예상대로 재현율이 증가함
    • 적절한 k값이 있으면 LSI 접근이 동의어 문제의 대안이 있음
    • LSI 질의어와 문헌들 사이에 중첩이 거의 없는 경우에 가장 작동함
 

19.2 웹의 특징

  • SCC(Strongly Connected Component)
  • 인입-링크(In-link)
  • 인출-링크(Out-link)
  • 인입-링크의 (In-degree)
  • 인출-링크의 (Out-degree)
  • 튜브(Tube)
    • IN OUT으로 직접 연결되는 SCC 외부의 소수 페이지
  • 덩굴손(Tendril)
    • IN이나 OUT으로부터 어떤 곳으로도 가지 못하는 형태
  • 링크 수의 분포는 Poisson 분포(Poisson distribution) 따르지 않으며 지수 법칙(Power law) 분포를 따름
  • 스팸(Spam)
    • 선택된 키워드 검색의 결과를 상위에 나타낼 목적으로 페이지의 콘텐츠를 조작하는 기술
  • 스팸 필터링 기법
    • 클로킹(Cloaking)
      • Http 요청이 검색엔진의 수집기로부터 것인가 아니면 인간 사용자로부터 인가에 따라 서로 다른 콘텐츠를 제공함
    • 검색 엔진 최적화 방법(SEO, Search Engine Optimizer)
      • 사용자가 선택한 키워드에 상위 랭크를 가지는 페이지들을 찾도록 돕는 서비스
 

19.3 경제적인 측면에서의 검색 광고

  • CPM(Cost per mil)
    • 1000 비용으로 배너 광고를 유치한 회사가 1000 노출되는데 소요되는 비용
  • CPC(Cost per Click)
    • 사용자의 클릭 수로 가격을 책정
 

19.4 사용자 검색에 대한 경험

  • 검색 질의어의 범주
    • 정보 찾기
      • 정보 질의(Informational queries)
    • 서핑
      • 항해 질의(Navigational queries)
    • 거래하기
      • 거래 질의(Transactional queries)
 

19.5 색인의 크기와 추정

  • 임의 검색(Random search)
    • 검색의 검색 로그에서 출발하여 로그로부터 E(검색엔진)으로 가는 임의 검색과 결과에서 임의 페이지를 보내는
  • 임의의 IP 주소(Random IP addresses)
    • 임의의 IP 주소를 발생시켜 임의의 주소의 서버에 요청을 보내 해당 서버의 모든 문헌을 수집하는
  • 임의의 산책(Random walk)
    • 그래프가 강하게 연결된 방향 그래프라면 임의의 페이지로부터 임의의 산책을 시행할 있음
    • 산책은 정적 상태 분포(Steady state distribution) 이룸
  • 임의 질의(Random query)
    • 지속적으로 개선되어 가는 추정 방법을 기초로
 

19.6 중복과 유사 어구 검출

  • 중복을 감지하는 가장 간단한 방법
    • 지문(Fingerprint)
      • 해당 페이지에 대한 문자들을 간결하게 압축한
    • 중복(Near duplication)
      • 대부분의 경우에 문자 외에는 동일함
      • 유사 어구 검출(Shingling)

 

 

 

블로그 이미지

나뷜나뷜

,