Java Douban Crawler

原文作者:杰锅锅(Jackie)

源码已经上传至Github:https://github.com/DMinerJackie/JewelCrawler

Word2Vec是什么,有什么用,怎么用
常用的中文分词器以及具体用法,如何加载停用词库等
Word2Vec如何训练数据得到模型
Word2Vec如何使用训练的模型分析有趣的维度

Word2Ve是google 推出的做词嵌入(word embedding)的开源工具。 简单的说,它在给定的语料库上训练一个模型,然后会输出所有出现在语料库上的单词的向量表示,这个向量称为”word embedding”。基于这个向量表示,可以计算词与词之间的关系,例如相似性(同义词等),语义关联性(中国 - 北京 = 英国 - 伦敦)等。

算法的原理如果有兴趣,可以找资料了解。
这里使用Word2Vec的大致流程如下:

  1. 获取数据(这里是豆瓣电影短评数据)
  2. 数据处理(将短评数据使用分词器分词,并以空格连接分词结果)
  3. 训练数据(将上述处理好符合要求的数据作为输入进行训练,得到训练模型)
  4. 载入训练模型,分析感兴趣的维度(比如,近义词分词,关联词分析)
    Github: https://github.com/NLPchina/Word2VEC_java

开发工具:Intellij idea 14
数据库: Mysql 5.5 + 数据库管理工具Navicat(可用来连接查询数据库)
语言:Java
Jar包管理:Maven
版本管理:Git
IKAnalyzer完成了短评分词
通过Jsoup和正则表达式来解析相应字段