Name		Name	Last commit message	Last commit date
Latest commit History 365 Commits
data/tmp		data/tmp
dev		dev
webapp		webapp
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile		Dockerfile
Grad_norm.py		Grad_norm.py
Makefile		Makefile
README.md		README.md
app.py		app.py
docker-compose.yml		docker-compose.yml
fetch_arxiv.py		fetch_arxiv.py
fit.py		fit.py
heroku.yml		heroku.yml
jax_tsom.py		jax_tsom.py
poetry.lock		poetry.lock
poetry.toml		poetry.toml
preprocessing_of_words.py		preprocessing_of_words.py
pyproject.toml		pyproject.toml
som.py		som.py
stop_words.txt		stop_words.txt
tsom.py		tsom.py

Repository files navigation

ExploreSearchSystem

技育展

Tmp Info

使用するアルゴリズム
システム構成図（叩き台）
データ収集(fetch.py)
データ整形(make_BoW.py)
- ScrapingがうまくいってないSnnipetをdataframeから削除
- 名詞・動詞・形容詞のみ抽出
- 半角・大文字の違いがなくなるように全て半角で統一
- 数字は全て0とする．（2015, 2014年や1200円とかも全て統一する）
- stop_wordというある研究で文章解析に不要だと知られている単語を削除
- max_dfで50個の文章で使われている単語は削除（ファッション）
- min_dfで3個未満の文章でしか使われていない単語は削除
- 最後に，Tf-idf処理を使って，「その単語がよく出現するほど」、「その単語がレアなほど」大きい値を示すようにする
  - tf（各文章においてその単語がどれだけ出現したのか
  - idf(どの文章でも使われる単語は重みは小さくしてユニークな単語の重みは大きくする処理をおこなう．)
データ学習(fit.py)

About

docs.google.com/presentation/d/11fRHM9cD_CFp_H_3jDkTmYNkmZoq9Ek1DfrkrbNpIFk

Custom properties

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 95.4%
CSS 3.2%
Other 1.4%