안녕하세요. 언제나휴일입니다.
1. 사용할 라이브러리 포함
수집 후보 페이지 주소를 얻기 위해 CandidateSql을 사용합니다.
웹 로봇을 테스트하기 위해 WebRobot을 사용합니다.
from CandidateSql import CandidateSql from WebRobot import WebRobot
2. DoIt – 웹 페이지 수집하였을 때 수행할 함수
주기적으로 수집한 웹 페이지 정보를 출력할 함수를 정의할게요.
cnt = 0 def DoIt(url,depth,wp): global cnt cnt = cnt +1 print("{0}번째 페이지 {1},{2} 수집".format(cnt,url,depth))
3. 웹 수집 로봇 사용
seed 사이트를 입력받은 후에 수집 후보 테이블에 등록합니다.
그리고 웹 수집 로봇을 가동합니다.
여기에서는 5초 주기로 가동하기로 할게요.
seed_url = input("시드 사이트 주소(예:http://sample.co.kr):") CandidateSql.AddCandidate(seed_url,0) WebRobot.CollectTM(5,DoIt)
4. 전체 코드
#WebRobot 클래스 정의하기 from CandidateSql import CandidateSql from WebRobot import WebRobot cnt = 0 def DoIt(url,depth,wp): global cnt cnt = cnt +1 print("{0}번째 페이지 {1},{2} 수집".format(cnt,url,depth)) seed_url = input("시드 사이트 주소(예:http://sample.co.kr):") CandidateSql.AddCandidate(seed_url,0) WebRobot.CollectTM(5,DoIt)