推荐文章
热门文章
您现在的位置:主页 > 365betmobileapp >
11 Java开源中文分词用法与分词的比较
      本文有两个目标。
1,学习如何使用Java的主要开源中文分词器11
2,中文11大Java开源片段分词效果对比分析
本文介绍如何使用Java的主要源代码的Java 11源代码比较代码。关于效果,使用的人将在他们自己的应用场景中判断。
十一种大型Java开源分词设备在中文中,不同的分词设备有不同的用途和定义的接口是不同的。首先,我们定义一个统一的界面。
根据上面的定义,在Java方法和参数中有相同的名称,但返回值是不同的。在这种情况下,无法进行重载。
这两种方法的区别在于返回值。每个单词分隔符可以具有多个单词分割模式。每种模式的分词结果可能不同。在第一方法中,忽略了字分割模式,所有模式,你的结果返回所有的非重复字段,在第二个方法,则分词结果返回对应于标记生成器的每个模式。
在这里,我们需要注意在Java 8中使用新的默认功能方法,并使用传输将地图值转换为不自行迭代的集合。
接下来,我们将使用11个优秀的tokenizer实现此接口。
1,单词分隔符
2,Ansj分词器
3,斯坦福Tokenizer
4,字分隔符FudanNLP
5,字分离器解霸
6 Jcseg字分隔符
7,MMSeg 4 j Talkizer
8,IKAnalyzer断字器
9,编码字分隔符
10,smartcn字分隔符
11,HanLP字分隔符
现在我能够学习如何在Java 11中使用主要的开源中文分词器,这是本文的第一个目标。
最后,我们将实现本文的第二个目标。比较分析了11种主要Java开源分词在中文中的分割效果,程序如下。
结果如下。
请参阅完整的代码在这里(https://github.com/ysc/cws_evaluation/blob/master/src/org/apdplat/evaluation/WordSegmenter.java)

上一篇:信越化学扩大了高回弹TPU材料的应用范围 下一篇:没有了
COPYRIGHT 2012-2013 POWERED BY 百度,All RIGHTS RESERVED 欢迎各界人士前来咨询/学习
咨询电话:13888888888 Q Q:888888888    邮编:471001     洛阳化妆学校 洛阳化妆培训 百度 洛阳新娘跟妆