做完搜索

这年头，感觉自己做的事情越来越没有谱了。干信息按全的做网格已经挺搞笑了，最近的项目还要做搜索引擎，ft一个。

smile师兄开始说要我做分词之类的东西，看来要和自然语言的混了。不过后来google一下，可以用Lucene做，这样底层的建索引、倒排这些东西我都可以不关心了。只要专心做中文的分词即可。

其实Lucene有自己的中文分词类CJKAnalyzer和ChineseAnalyzer。原来以为可以用它俩就可以了，毕竟是官方的嘛。没想到下载下来，就是两个java源文件，运行一下，发现前者就是将所有的文字分为两个字的词组，后者和StandardAnalyzer一样的，更别说什么词库了，那个晕啊。

没办法，继续googling，找到一个segment.jar，这个有词库，分得还可以，基本上能按照词库里面的词把文章分开了。下面的工作就是将它改造为Lucene的Analyzer，这部分就是分析+copy+paste+重写，晚上基本上做完了。除了分出的词的startoffset和endoffset有点问题之外，基本上能做索引，搜索了。

革命尚未成功，继续吧。

2 thoughts on “做完搜索”

Leave a Reply to WangYao Cancel reply