[빅데이터 python] 웹 수집 로봇 만들기 – 7. WebRobot 가동 예

안녕하세요. 언제나휴일입니다.

1. 사용할 라이브러리 포함

수집 후보 페이지 주소를 얻기 위해 CandidateSql을 사용합니다.

웹 로봇을 테스트하기 위해 WebRobot을 사용합니다.

from CandidateSql import CandidateSql
from WebRobot import WebRobot

2. DoIt – 웹 페이지 수집하였을 때 수행할 함수

주기적으로 수집한 웹 페이지 정보를 출력할 함수를 정의할게요.

cnt = 0
def DoIt(url,depth,wp):
    global cnt
    cnt = cnt +1
    print("{0}번째 페이지 {1},{2} 수집".format(cnt,url,depth))

3. 웹 수집 로봇 사용

seed 사이트를 입력받은 후에 수집 후보 테이블에 등록합니다.

그리고 웹 수집 로봇을 가동합니다.

여기에서는 5초 주기로 가동하기로 할게요.

seed_url = input("시드 사이트 주소(예:http://sample.co.kr):")
CandidateSql.AddCandidate(seed_url,0)
WebRobot.CollectTM(5,DoIt)

4. 전체 코드

#WebRobot 클래스 정의하기
from CandidateSql import CandidateSql
from WebRobot import WebRobot

cnt = 0
def DoIt(url,depth,wp):
    global cnt
    cnt = cnt +1
    print("{0}번째 페이지 {1},{2} 수집".format(cnt,url,depth))

seed_url = input("시드 사이트 주소(예:http://sample.co.kr):")
CandidateSql.AddCandidate(seed_url,0)
WebRobot.CollectTM(5,DoIt)