工具箱大全,主要是Python项目。
涵盖:
- 网络爬虫
- 数据库
- 数据分析
- 机器学习
- 可视化
- 文本分析
- GUI
- 自动化办公
- 其他
- requests 最好用的网络爬虫访问库
- smartscraper 最简单的网络爬虫访问&解析库
- weibo_crawler 最简单的微博爬虫
- 崔庆才大神发布的测试站点
- gerapy-auto-extractor 爬虫页面智能解析库
- TikTok-Api 抖音国际站爬虫库
- rpa Python自动化操纵包
- celery 可以用于制作爬虫访问队列
- BeautifulSoup 最简单的网页解析库
- pyquery 最简洁网页解析库
- scrapy 最流行的爬虫框架
- pyspider 国人开发的爬虫框架
- selenium 浏览器自动化测试框架,可以用于爬虫反爬
- playwright 微软开源的浏览器自动化测试框架
- scylla 智能IP代理池,用于反爬
- shreport 上海证券交易所上市公司定期报告下载
- newspaper 新闻爬虫库,根据提供的url可以抽取出新闻标题、作者、关键词、总结,部分功能支持中文
- pelican Python静态网站生成库
- flask 可以开发网站、分享rest-api接口;流行度top2的web框架
- streamlit、PyWebIO对Python小白最友好的的web库
- fastapi web框架,高性能,易于学习,快速编写代码;
- PyWebIO 不需要编写HTML和JS代码,就可以构建简单的基于浏览器的GUI应用。
- mkdocs 制作文档网站
- PyMySQL
- Sqlite3 轻量级sql数据库(python内置库)
- pymongo 非关系型MongoDB库
- redis Redis数据库
- py2neo 对接Neo4J数据库的python库
- datasette 探索和发布数据的开源多功能工具,主要面向数据记者、博物馆馆长、档案管理员、地方政府、科学家、研究人员以及任何拥有希望与世界分享数据的人。
- pandas 必须Python数据分析库,读取文件、预处理数据、分析、存储
- SciencePlots 科学绘图的Python工具包
- Orchest 创建数据科学工作量的工具。Orchest是一款Web数据科学工具,可在文件系统上运行
- statsmodels Python的统计计量统计库
- linearmodels 添加线性模型,包括statsmodels中缺少的工具变量和面板数据模型。
- streamlit 快速搭建本地数据分析类Web应用
- modin pandas加速库,接口语法与pandas高度一致
- dask pandas加速库,接口语法与pandas高度一致
- plydata pandas管道语法库
- networkx 社交网络分析库
- vowpal wabbit 机器学习的前沿库
- scikit-learn 机器学习必学库,支持有监督、无监督多种算法,含文本分析功能
- Orange3 点击操作的机器学习分析软件, 可文本分析
- doccano 文本数据标注工具
- label-studio 最牛掰的文本数据标注工具
- streamlit 快速搭建本地数据分析类Web应用
- matplotlib Python中最万能绘图库,很少有ta画不出来的图;但语法较难、静态图
- matplotx Matplotlib扩展库,可以提供更多样式,简化样式设定
- seaborn 基于matplotlib开发的简化版可视化库, 一般的图可以用ta绘制; 高度定制仍需要结合matplotlib进行样式定制;静态图
- plotnine ggplot2语法的Python可视化库, 可与plydata 库结合使用
- pyecharts 国人开发并封装的动态可视化图绘制库; 中文文档
- plotly 动态可视化图绘制库
- bokeh 动态可视化图绘制库
- SciencePlots 科研论文绘图,基于matplotlib
- datapane 数据分析报告生成
- superset 开源商务智能分析可视化库
- nltk 自然语言分析套件,对中文不友好
- skift 使用scikit-learn语法封装了fastText功能的包。
- kwx Python 中基于 BERT、LDA 和 TFIDF 的关键字提取
- spacy 工业级自然语言模型库,支持中文
- jieba 中文文本分词库
- snownlp 中文情感分析库
- gensim 最好用、最全的话题模型
- cntext 中文文本分析库,含词频统计、情感分析、可视化
- label-studio 最牛掰的文本数据标注工具
- doccano 文本数据标注工具
- textstat 文本可读性计算包(算法全,但仅支持英文)
- texthero 文本预处理、展示、可视化库,仅支持英文
- textpipe 文本分析流水线
- textplot 词语网络图
- shifterator 通过让您查看单词使用方式的变化,单词移位可以帮助您进行从根本上更可解释的情感,熵和散度分析。量化不同单词对两个文本差异做出的贡献,以及它们如何发挥作用。
- GuidedLDA 半监督LDA主题模型
- corex_topic 层次非监督、半监督话题模型
- BERTopic BERT话题模型
- whatlies 词向量可视化
- TextDescriptives 文本描述性统计,不支持中文
- pdfdocx pdf、docx读取库
- OCRmyPDF 为扫描的 PDF 文件添加了 OCR 文本层,允许对其进行搜索
- Top2Vec 主题建模和语义搜索的算法, 自动检测文本中存在的主题并生成联合嵌入的主题、文档和词向量。 适用于短文本;
- TextNet textnet将文档集表示为文档和单词的网络,为文本分析与可视化提供了新的可能性。
- taguette 免费开源的定性研究工具
- tkinter Python内置的gui库
- PySimpleGUI 最简单的gui开发库
- pyqt5、pyside 最牛掰的gui软件开发库
- DearPyGui 易于使用且功能强大的Python GUI框架,它提供了DearImGui的包装。
- PyWebIO 快速构建 Web 应用的 Python 工具
- kivy star数高达14k的gui库
- zmail 自动化收发邮件管理库
- pywinauto Windows电脑自动化Python库
- WeasyPrint 自动化生产pdf报告
- 对PDF文件读取、更改、添加信息
- selenium 浏览器自动化框架,可以自动化点击浏览器,完成某些工作
- mkdocx
- python-docx 创建、修改docx文件库
- python-ppt 创建、修改ppt文件库
- openpyxl xlsx文件库
- PyWebIO 不需要编写HTML和JS代码,就可以构建简单的基于浏览器的GUI应用。
- hiresearch 丢弃繁杂收藏夹,定义简洁办公的浏览器首页
- reveal.js 最流行的幻灯片
- slidev 编程人员使用的幻灯片
- mkdocs 制作文档网站
- mockoon 帮我们快速搭建 API 服务图形化界面工具
- codepng 把代码转为美观的截图的website
- toad 金融风险评分卡;覆盖了建模全流程,从 EDA、特征工程、特征筛选 到 模型验证和评分卡转化
- best-resume-ever Latex项目, 基于 Web 的简历模板,可以生成网页简历,然后用浏览器打印成 PDF 文件。
- pychorus 将音频文件中的高潮部分剪辑出来的python包
- imageio 用于读取和写入图像数据的 Python 库;
如果您是经管人文社科专业背景,编程小白,面临海量文本数据采集和处理分析艰巨任务,个人建议学习《python网络爬虫与文本数据分析》视频课。作为文科生,一样也是从两眼一抹黑开始,这门课程是用五年时间凝缩出来的。自认为讲的很通俗易懂o( ̄︶ ̄)o,
- python入门
- 网络爬虫
- 数据读取
- 文本分析入门
- 机器学习与文本分析
- 文本分析在经管研究中的应用
感兴趣的童鞋不妨 戳一下《python网络爬虫与文本数据分析》进来看看~
- B站:大邓和他的python
- 公众号:大邓和他的python
- 知乎专栏:数据科学家