3.3.3 수집한 웹 페이지에 있는 형태소

수집한 웹 페이지의 내용은 형태소 분석기를 이용하여 포함하는 형태소를 분석합니다. 이들의 정보는 검색 요청이 오면 빠른 검색을 위해 사용하고 또한 랭커에 의해 순위화할 때도 사용합니다.

먼저 수집한 웹 페이지에 존재하는 모든 형태소의 개수를 기억하는 MCountUrlTable을 만듭시다. 이 부분은 TF(페이지 내에 특정 형태소의 빈도수)값을 계산하기 위해 페이지 내의 형태소 개수를 기록해 놓는 것입니다.

MCountUrlTable에는 웹 페이지 주소와 페이지 내의 형태소 개수를 기억하는 열을 추가합니다. 그리고 Url을 Primary Key로 설정하세요.

MCountUrlTable 다이어그램
[그림 3.18] MCountUrlTable 다이어그램

 그리고 수집한 웹 페이지에 포함한 형태소를 기억하는 역 파일 테이블이 필요합니다. 이것을 통해 검색 요청이 오면 빠르게 특정 형태소를 포함하고 있는 웹 사이트를 찾는데 사용합니다.

기본적으로 형태소 이름과 인덱스를 열로 하는 IndexInvFileTable에 이 정보를 저장합니다.

IndexInvFileTable 다이어그램
[그림 3.19] IndexInvFileTable 다이어그램

그리고 새로운 형태소를 만나면 MTB_와 형태소의 일련 번호의 조합으로 테이블을 동적으로 추가합니다. 동적으로 생성한 테이블에는 웹 페이지 주소와 해당 형태소를 몇 번 참조하는지 개수를 저장합니다.

이 정보도 형태소 분석기에서 분석한 내용을 역 파일 생성기에서 저장하며 랭커에 의해 TF값을 계산할 때 사용합니다. [그림 3.20]은 동적으로 생성하는 테이블의 프로토 타입입니다.

MTB_Prototype 다이어그램
[그림 3.20] MTB_Prototype 다이어그램