ThaiGov corpus

HuggingFace Dataset: pythainlp/thaigov-corpus

English

Data from Thai government website. https://www.thaigov.go.th
This part of PyThaiNLP Project.
Compiled by Mr.Wannaphong Phatthiyaphaibun
License Dataset is public domain.

Data format

1 file, 1 news, which is extracted from 1 url.

topic
(Blank line)
content
content
content
content
content
(Blank line)
ที่มา (URL source) : http://www.thaigov.go.th/news/contents/details/NNN

Thai

เป็นข้อมูลที่รวบรวมข่าวสารจากเว็บไซต์รัฐบาลไทย https://www.thaigov.go.th
โครงการนี้เป็นส่วนหนึ่งในแผนพัฒนา PyThaiNLP
รวบรวมโดย นาย วรรณพงษ์ ภัททิยไพบูลย์
ข้อมูลที่รวบรวมในคลังข้อความนี้เป็นสาธารณสมบัติ (public domain) ตามพ.ร.บ.ลิขสิทธิ์ พ.ศ. 2537 มาตรา 7 (สิ่งต่อไปนี้ไม่ถือว่าเป็นงานอันมีลิขสิทธิ์ตามพระราชบัญญัตินี้ (1) ข่าวประจำวัน และข้อเท็จจริงต่างๆ ที่มีลักษณะเป็นเพียงข่าวสารอันมิใช่งานในแผนกวรรณคดี แผนกวิทยาศาสตร์ หรือแผนกศิลปะ [...] (3) ระเบียบ ข้อบังคับ ประกาศ คำสั่ง คำชี้แจง และหนังสือตอบโต้ของกระทรวง ทบวง กรม หรือหน่วยงานอื่นใดของรัฐหรือของท้องถิ่น [...])

สามารถติดตามประวัติการแก้ไขคลังข้อความนี้ได้ผ่านระบบ Git

จำนวนข่าว

วันเริ่มต้นโครงการ 14 ก.พ. 2561
รวบรวมครั้งล่าสุด 01.50 น. วันที่ 18 มีนาคม พ.ศ.2563

รูปแบบข้อมูล

1 ไฟล์ 1 ข่าว ซึ่งดึงมาจาก 1 url

หัวเรื่อง
(บรรทัดว่าง)
เนื้อความ
เนื้อความ
เนื้อความ
เนื้อความ
เนื้อความ
(บรรทัดว่าง)
ที่มา : http://www.thaigov.go.th/news/contents/details/NNN

รายละเอียดชื่อไฟล์

ชื่อหมวดหมู่_จำนวนที่ของข่าว.txt
มีโฟลเดอร์ 1 - 24 (ไม่มีโฟลเดอร์ที่ 13)

Script

run.py สำหรับเก็บข้อมูลจากหน้าเว็บ โดยจะดึงหน้าเว็บจาก url http://www.thaigov.go.th/news/contents/details/NNN โดยที่ NNN คือเลขจำนวนเต็ม
- เปลี่ยนค่าตัวแปร i ในไฟล์เป็นเลขที่ต้องการเริ่มเก็บ
clean.py สำหรับทำความสะอาดข้อมูลเบื้องต้น โดยจะลบช่องว่างหน้าและท้ายบรรทัด ลบบรรทัดว่าง
- clean.py ชื่อไฟล์
- clean.py ชื่อไฟล์1 ชื่อไฟล์2
- clean.py *.txt

We build Thai NLP.

PyThaiNLP

Name		Name	Last commit message	Last commit date
Latest commit History 90 Commits
1		1
10		10
11		11
12		12
14		14
15		15
16		16
17		17
18		18
19		19
2		2
20		20
21		21
22		22
23		23
24		24
3		3
4		4
5		5
6		6
7		7
8		8
9		9
thaigov2-1		thaigov2-1
thaigov2-10		thaigov2-10
thaigov2-11		thaigov2-11
thaigov2-12		thaigov2-12
thaigov2-13		thaigov2-13
thaigov2-14		thaigov2-14
thaigov2-15		thaigov2-15
thaigov2-16		thaigov2-16
thaigov2-17		thaigov2-17
thaigov2-2		thaigov2-2
thaigov2-3		thaigov2-3
thaigov2-4		thaigov2-4
thaigov2-5		thaigov2-5
thaigov2-6		thaigov2-6
thaigov2-7		thaigov2-7
thaigov2-8		thaigov2-8
thaigov2-9		thaigov2-9
จากใจนายกรัฐมนตรี		จากใจนายกรัฐมนตรี
รายการคืนความสุขให้คนในชาติ		รายการคืนความสุขให้คนในชาติ
.gitignore		.gitignore
23.zip		23.zip
24.zip		24.zip
README.md		README.md
_config.yml		_config.yml
clean.py		clean.py
make-dataset.ipynb		make-dataset.ipynb
run.py		run.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ThaiGov corpus

English

Data format

Thai

จำนวนข่าว

รูปแบบข้อมูล

รายละเอียดชื่อไฟล์

Script

About

Releases 4

Packages

Contributors 2

Languages

PyThaiNLP/thaigov-corpus

Folders and files

Latest commit

History

Repository files navigation

ThaiGov corpus

English

Data format

Thai

จำนวนข่าว

รูปแบบข้อมูล

รายละเอียดชื่อไฟล์

Script

About

Topics

Resources

Stars

Watchers

Forks

Releases 4

Packages 0

Contributors 2

Languages

Packages