18.4 잠재 의미 색인
- 잠재 의미 색인(LSI, Latent Semantic Indexing) 혹은 잠재 의미 분석(LSA, Latent Semantic Analysis)
- 기존의 벡터 공간 표현은 자연어에서 발생하는 동의어(Synonymy), 다의어(Polysemy)와 같은 문제를 다룰 수 없음
- 질의어들을 저계수 근사 표현으로 만들어 질의어-문헌의 일치 정도를 저계수 표현으로 계산할 수 있음
- LSI의 특징
- SVD 계산에 소요되는 비용이 너무 큼
- k를 감소하면 예상대로 재현율이 증가함
- 적절한 k값이 있으면 LSI 접근이 동의어 문제의 대안이 될 수 있음
- LSI는 질의어와 문헌들 사이에 중첩이 거의 없는 경우에 가장 잘 작동함
19.2 웹의 특징
- SCC(Strongly Connected Component)
- 인입-링크(In-link)
- 인출-링크(Out-link)
- 인입-링크의 수(In-degree)
- 인출-링크의 수(Out-degree)
- 튜브(Tube)
- IN과 OUT으로 직접 연결되는 SCC 외부의 소수 페이지
- 덩굴손(Tendril)
- IN이나 OUT으로부터 어떤 곳으로도 가지 못하는 형태
- 링크 수의 분포는 Poisson의 분포(Poisson distribution)를 따르지 않으며 지수 법칙(Power law)의 분포를 따름
- 스팸(Spam)
- 선택된 키워드 검색의 결과를 상위에 나타낼 목적으로 웹 페이지의 콘텐츠를 조작하는 기술
- 스팸 필터링 기법
- 클로킹(Cloaking)
- Http 요청이 웹 검색엔진의 수집기로부터 온 것인가 아니면 인간 사용자로부터 인가에 따라 서로 다른 콘텐츠를 제공함
- 검색 엔진 최적화 방법(SEO, Search Engine Optimizer)
- 사용자가 선택한 키워드에 상위 랭크를 가지는 웹 페이지들을 찾도록 돕는 서비스
19.3 경제적인 측면에서의 검색 광고
- CPM(Cost per mil)
- 1000번 당 비용으로 배너 광고를 유치한 회사가 1000번 노출되는데 소요되는 비용
- CPC(Cost per Click)
- 사용자의 클릭 수로 가격을 책정
19.4 사용자 검색에 대한 경험
- 웹 검색 질의어의 범주
- 정보 찾기
- 정보 질의(Informational queries)
- 웹 서핑
- 항해 질의(Navigational queries)
- 거래하기
- 거래 질의(Transactional queries)
19.5 색인의 크기와 추정
- 임의 검색(Random search)
- 웹 검색의 검색 로그에서 출발하여 로그로부터 E(검색엔진)으로 가는 임의 검색과 결과에서 임의 페이지를 보내는 것
- 임의의 IP 주소(Random IP addresses)
- 임의의 IP 주소를 발생시켜 임의의 주소의 웹 서버에 요청을 보내 해당 서버의 모든 문헌을 수집하는 것
- 임의의 산책(Random walk)
- 웹 그래프가 강하게 연결된 방향 그래프라면 임의의 웹 페이지로부터 임의의 산책을 시행할 수 있음
- 이 산책은 정적 상태 분포(Steady state distribution)를 이룸
- 임의 질의(Random query)
- 지속적으로 개선되어 가는 추정 방법을 기초로 함
19.6 근 중복과 유사 어구 검출
- 중복을 감지하는 가장 간단한 방법
- 지문(Fingerprint)
- 해당 페이지에 대한 문자들을 간결하게 압축한 것
- 근 중복(Near duplication)
- 대부분의 경우에 문자 몇 개 외에는 동일함
- 유사 어구 검출(Shingling)
'Study > Information Retrieval' 카테고리의 다른 글
정보검색론 공부 - 링크 분석 (0) | 2019.01.23 |
---|---|
정보검색론 공부 - 웹 수집과 색인 (0) | 2019.01.23 |
정보검색론 공부 - 계층 군집화 (0) | 2019.01.23 |
정보검색론 공부 - 평면 군집화 (0) | 2019.01.23 |
정보검색론 공부 - 지지 벡터 기계와 기계 학습 (0) | 2019.01.23 |