技育展
-
データ収集(fetch.py)
-
データ整形(make_BoW.py)
- ScrapingがうまくいってないSnnipetをdataframeから削除
- 名詞・動詞・形容詞のみ抽出
- 半角・大文字の違いがなくなるように全て半角で統一
- 数字は全て0とする.(2015, 2014年や1200円とかも全て統一する)
- stop_wordというある研究で文章解析に不要だと知られている単語を削除
- max_dfで50個の文章で使われている単語は削除(ファッション)
- min_dfで3個未満の文章でしか使われていない単語は削除
- 最後に,Tf-idf処理を使って,「その単語がよく出現するほど」、「その単語がレアなほど」大きい値を示すようにする
- tf(各文章においてその単語がどれだけ出現したのか
- idf(どの文章でも使われる単語は重みは小さくしてユニークな単語の重みは大きくする処理をおこなう.)
-
データ学習(fit.py)