3.3.2 수집한 웹 페이지

수집한 웹 페이지의 기본 정보를 저장하는 PostedUrlTable을 만들어 봅시다.

테이블의 항목에는 웹 페이지 주소와 원래 요청한 페이지 주소, Seed 사이트에서의 상대적 깊이, 수집한 날짜, 수집한 내용, 제목을 추가합니다. 그리고 Primary Key로 웹 페이지 주소를 선정합시다.

웹 페이지 주소와 원래 요청한 페이지 주소는 대부분 일치하지만 프레임 형태로 되어 있는 웹 페이지는 요청한 주소와 수집한 주소가 다를 수 있습니다.

그리고 여러분께서 웹 로봇의 품질 수준을 높이길 원하시면 수집한 날짜가 오래되면 다시 수집 대상에 포함시키는 작업을 추가할 수 있습니다. 여기에서는 이 작업은 수행하지 않겠습니다.

PostedUrlTable 다이어그램
[그림 3.17] PostedUrlTable 다이어그램