这年头,感觉自己做的事情越来越没有谱了。干信息按全的做网格已经挺搞笑了,最近的项目还要做搜索引擎,ft一个。
smile师兄开始说要我做分词之类的东西,看来要和自然语言的混了。不过后来google一下,可以用Lucene做,这样底层的建索引、倒排这些东西我都可以不关心了。只要专心做中文的分词即可。
其实Lucene有自己的中文分词类CJKAnalyzer和ChineseAnalyzer。原来以为可以用它俩就可以了,毕竟是官方的嘛。没想到下载下来,就是两个java源文件,运行一下,发现前者就是将所有的文字分为两个字的词组,后者和StandardAnalyzer一样的,更别说什么词库了,那个晕啊。
没办法,继续googling,找到一个segment.jar,这个有词库,分得还可以,基本上能按照词库里面的词把文章分开了。下面的工作就是将它改造为Lucene的Analyzer,这部分就是分析+copy+paste+重写,晚上基本上做完了。除了分出的词的startoffset和endoffset有点问题之外,基本上能做索引,搜索了。
革命尚未成功,继续吧。
可以看一下这个:http://sewm.pku.edu.cn/src/ChSeg/正向减字最大匹配算法。
你的blog真不错。咱实验室本来是搞并行计算的,后来转搞网安,现在搞网安的不多了,反而网络模拟和网格火了,是顺势而动,还是想返古,我也说不清楚。总之千万不要晕呀:)