1 统计雪球讨论热门的股票
1.1.在主页获取雪球活跃用户
1.2.在活跃用户的发帖中统计股票被提及的次数
1.3.画出与个股讨论度与价格走势图
2 对评论情感分析
2.1.使用jieba分词
https://github.com/fxsjy/jieba.git
2.2.股票领域语料库的构建
统计评论中的词语提及次数,把频率较高的当做股票领域词语
2.3.提取特征值
根据语料库,提取特征值
2.4.使用nltk NaiveBayesClassifier简单分类评论的正面和负面情绪
http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/
2.5.结论
利用上边的语料库提取特征值,很难判断评论的正反情感,准确率只有一半。
词典不够代表性
2.6.第二种方法
论坛里对股票的评论一般都是正面的
把前几天的个股讨论度上升下降与第二天的股价上升下降进行机器学习,即统计概率
输入前几天的个股讨论度,输出第二天最有可能的股价走势。
目前是统计前两天的讨论度和两天的股价与第二天的股价走势的关系, 0表示比昨天上升1表示下降2表示平, 例如前两天的评论与股价走势'1010'与第二天股价上升、下降、平的概率 0.0444444444444 0.955555555556 0.0
2.6.1.结论
结果准确率只有一半
2.7.第三种方法
讨论度与第二天股价关系
todo:
统计被提及股票的版块热度图,判断版块热度加速度是否是热点转换的依据
个股与行业讨论度与股价走势的关系,利用机器学习预测走势
分析用户(或者大神)对个股的情绪与股价走势的关系
分词 不开心 会分成 不 开心 对情绪分析有点影响