Skip to content

furukawa-laboratory/ExploreSearchSystem

 
 

Repository files navigation

技育展

Tmp Info

  • 使用するアルゴリズム

  • システム構成図(叩き台) システム構成図(叩き台)

  • データ収集(fetch.py)

  • データ整形(make_BoW.py)

    • ScrapingがうまくいってないSnnipetをdataframeから削除
    • 名詞・動詞・形容詞のみ抽出
    • 半角・大文字の違いがなくなるように全て半角で統一
    • 数字は全て0とする.(2015, 2014年や1200円とかも全て統一する)
    • stop_wordというある研究で文章解析に不要だと知られている単語を削除
    • max_dfで50個の文章で使われている単語は削除(ファッション)
    • min_dfで3個未満の文章でしか使われていない単語は削除
    • 最後に,Tf-idf処理を使って,「その単語がよく出現するほど」、「その単語がレアなほど」大きい値を示すようにする
      • tf(各文章においてその単語がどれだけ出現したのか
      • idf(どの文章でも使われる単語は重みは小さくしてユニークな単語の重みは大きくする処理をおこなう.)
  • データ学習(fit.py)