Naver blog crawler

Batch crawler

크롤링 전략은 다음과 같다.

블로그 크롤링: http://section.blog.naver.com/sub/PostListByDirectory.nhn?option.page.currentPage=1&option.templateKind=0&option.directorySeq=5&option.viewType=default&option.orderBy=date&option.latestOnly=0
- currentPage: 1 ~ 100 page의 블로그 페이지. 한 page에 10개의 blog의 리스트가 존재함
- directoryseq: 5 ~ 36까지의 category로 구성됨. (category 옵션을 이용해 입력) ex) 5: "문학, 책", 6:"영화" (section_information.json 참고)
- latestOnly: binary 변수. 1= 주목받는 글, 0= 전체 글 (latest-only 또는 type 옵션을 이용해 입력)
- 각 directory별로 12시간 내의 블로그를 가지고 있음

Requirements

Python 2.7+
pip install beautifulsoup4

Run

input 변수: category, crawler version, type
output: json으로 저장된 파일(크롤러가 돌아갈때마다 하나의 파일을 생성하여 저장함)
- 저장된 objects: blogId, blogName, content, crawledTime, crawlerVersion, images, logNo, tags, title, url, wirttenTime $ python crawler.py --help

파일 저장 형태

crawler version 0.1: data/directoryseq/year/month/day/*.json

Query crawler

Setup

sudo apt-get install gcc python-dev
pip install -r requirements.txt
vi settings.py  # modify REMOTE
vi queries.txt  # leave queries of interest

Run

python blog_query_crawler.py

Name		Name	Last commit message	Last commit date
Latest commit History 211 Commits
.gitignore		.gitignore
README.md		README.md
blog_comment_crawler.py		blog_comment_crawler.py
blog_list_crawler.py		blog_list_crawler.py
blog_query_crawler.py		blog_query_crawler.py
blog_statistic.py		blog_statistic.py
blog_text_crawler.py		blog_text_crawler.py
main_statistics.py		main_statistics.py
queries.txt		queries.txt
requirements.txt		requirements.txt
section_information.json		section_information.json
settings.py		settings.py
utils.py		utils.py
version.cfg		version.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Naver blog crawler

Batch crawler

Requirements

Run

파일 저장 형태

Query crawler

Setup

Run

Authors

About

Releases

Packages

Contributors 2

Languages

snudm/naver-blog-crawler

Folders and files

Latest commit

History

Repository files navigation

Naver blog crawler

Batch crawler

Requirements

Run

파일 저장 형태

Query crawler

Setup

Run

Authors

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages