Skip to content

Latest commit

 

History

History
55 lines (36 loc) · 4.82 KB

README.md

File metadata and controls

55 lines (36 loc) · 4.82 KB

PythonDataMining 在线浏览 [ 推荐 ]

FOSSA Status

在学院的书架上发现了一本不带脑子就能看懂的书《Python数据挖掘与实战》

  • pdf 在当前目录./下,有 黑白图中文版彩色图表补充

    • pdf 体积略大(8.8Mb),github 直接打开比较慢,建议clonefork
  • 随书附带的代码在./BOOK_CODE文件夹下面,全英文

    • 原书有些数据集不包含在内,因为这些数据需要从其他网站上下载,而网站已经更新,书编写时的数据很难再找到
    • 有些数据还要翻墙才拿得到,比如第六章”使用朴素贝叶斯进行社交媒体挖掘”时,数据集需要通过twitterAPI来获取,要在代码里翻墙
    • 我根据书中的需要,一个一个重新把数据集找到,放到./data目录下(包括书编写时的数据、需要翻墙的数据)
  • 阅读笔记在当前目录./下,这是在随书附带的代码的基础上做的中文版

  • 最后,厚着脸皮要 star ,嘤嘤嘤~~

本地浏览

环境:python3.x, jupyter notebook

pip install notebook # 安装笔记本
jupyter notebook # 启动笔记本

笔记目录

  1. 数据挖掘流程简单示例10min.ipynb
  2. 用近邻算法分类.ipynb
  3. 用决策树预测获胜球队.ipynb
  4. 用亲和性分析推荐电影.ipynb
  5. 用转换器抽取特征.ipynb
  6. 用朴素贝叶斯进行社会媒体挖掘.ipynb
  7. 用图挖掘找到感兴趣的人.ipynb
  8. 用神经网络破解验证码.ipynb
  9. 作者归属问题.ipynb
  10. 新闻语料分类.ipynb
  11. 用深度学习进行图象分类.ipynb
  12. 大数据处理.ipynb

问题解决记录

  1. Python Tweepy 翻墙抓取Twitter信息

免责声明

本仓库没有英文原版的文件,只有网友翻译的中文版文件。中文版具体来源记不清了。如有问题可随时联系我删除相关文件。

License

FOSSA Status