Java Douban Crawler

Post author: IPCreator
Post link: <a href="http://ipcreator.me/2017/03/10/Program/Java/java-crawler/" title="Java Douban Crawler">http://ipcreator.me/2017/03/10/Program/Java/java-crawler/
Copyright Notice: All articles in this blog are licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0/" rel="external nofollow" target="_blank">CC BY-NC-SA 4.0 unless stating additionally.

源码已经上传至Github：https://github.com/DMinerJackie/JewelCrawler

Word2Vec是什么，有什么用，怎么用
常用的中文分词器以及具体用法，如何加载停用词库等
Word2Vec如何训练数据得到模型
Word2Vec如何使用训练的模型分析有趣的维度

Word2Ve是google 推出的做词嵌入（word embedding）的开源工具。简单的说，它在给定的语料库上训练一个模型，然后会输出所有出现在语料库上的单词的向量表示，这个向量称为”word embedding”。基于这个向量表示，可以计算词与词之间的关系，例如相似性(同义词等)，语义关联性（中国 - 北京 = 英国 - 伦敦）等。

算法的原理如果有兴趣，可以找资料了解。
这里使用Word2Vec的大致流程如下：

获取数据（这里是豆瓣电影短评数据）
数据处理（将短评数据使用分词器分词，并以空格连接分词结果）
训练数据（将上述处理好符合要求的数据作为输入进行训练，得到训练模型）
载入训练模型，分析感兴趣的维度（比如，近义词分词，关联词分析）
Github： https://github.com/NLPchina/Word2VEC_java

开发工具：Intellij idea 14
数据库: Mysql 5.5 + 数据库管理工具Navicat（可用来连接查询数据库）
语言：Java
Jar包管理：Maven
版本管理：Git
IKAnalyzer完成了短评分词
通过Jsoup和正则表达式来解析相应字段