项目中用到了lucene做搜索引擎,发现标准分词器的中文分词方式就是将所有中文拆分成一个一个的字,导致对词组的查询的结果有问题,有谁遇到过类似的问题没?有没有自己用过,感觉很好的中文分词器推荐下呢??
自己顶起,lucene版本为4.2.1
有很多c#的,也有一个c++的,开源但不能商业化,有兴趣自己搜 盘古分词 c#
1楼 @贵人 你好,lucene就完全够用了,你也可以配上IKAnalyzer.
IKAnalyzer是有扩展词和停止词的概念,完全可以满足你的要求的。
2楼 @灵感之源 好的,我瞅瞅,灰常感谢~
3楼 @yangwen13 lucene自带的分词器对中文支持不够,IKAnalyzer我考虑了,但是目前不支持lucene4以上,可能需要改源码才行
如果是iOS的话,框架里有分词啊。。。
6楼 @terryso 不是ios~是java,已经搞定了,选择了jcseg框架,修改了一下源码,妥妥的
@terryso iOS 下有什么好的中文分词的框架吗?
3楼 @yangwen13 IK 支持中文分词