메뉴 건너뛰기


Projects > Web Agent

웹 문서의 중복 유형

2013.12.30 12:06

푸우 조회 수:4016

웹 문서의 중복 유형

홍석후0* 김성진* 이상호**

* 숭실대학교 대학원 컴퓨터 학과

** 숭실대학교 컴퓨터학부

vonsaki@korea.com0*, sjkim@ghwa.net*, shlee@computing.ssu.ac.kr**

On Types Of Redundant Web Pages

Seok Hoo Hong0* Sung Jin Kim* Sang Ho Lee**

* Department of Computing, Soongsil University

** School of Computing, Soongsil University


요  약

  하나의 웹 문서는 다양한 문자열의 URL로 나타날 수 있다. 이러한 URL들을 서로 다른 URL로 인식할 경우에 웹 로봇은 한 문서를 반복 수집한다. 따라서, 웹 로봇은 발견된 URL들을 동일한 형태의 URL로 표현하여야 한다. 본 논문에서는 URL을 동일한 형태로 표현할 때 고려해야 하는 사항으로서 ‘www접두어’, ‘포트번호’, ‘대/소문자 구분’, ‘마지막 슬래시 문자’, ‘인코딩과 디코딩’의 표현에 따른 5가지 URL 중복 유형을 제시한다. 본 논문에서는 한국 웹에서 서로 다른 문자열로 발견된 1억 4천만 개 URL을 대상으로 하여, 제시된 5가지 사항을 고려하지 않을 때 중복 수집되는 문서의 양을 보고한다.