960 992 206 690 885 139 445 50 782 789 626 351 622 850 498 78 153 868 686 121 733 936 925 479 896 259 419 188 408 585 916 913 937 337 839 956 106 258 930 777 144 517 361 453 357 219 233 180 621 970
当前位置:首页 > 亲子 > 正文

网络世界的“同性恋悬念”.gay顶级域名能否通过审核

来源:新华网 迪德春芝晚报

中文分词是百度和谷歌的核心技术之一,因此不会将细节公之于。中华论文联盟只能利用黑盒方法进行推导,也即通过输入检索提问,查看结果情况,并通过两个搜索引擎都具备的网页快照功能查看各自对检索提问的分词情况。 表1 检索提问在百度和谷歌中的分词情况* 第一,推导百度的中文分词技术 第1个例子说明,如果对检索提问用引号做精确检索,百度对其不进行分词运算。例2说明,如果输入用空格进行分割的若干个子字符串,百度对其自动做分词处理(如果用标点符号分割,也会做自动分词处理)。例3、6、7、8、10等都说明百度对检索词会进行多种切分方式,并且首先是不进行切分,直接匹配,如果有结果则返回,并排在检索结果最前面;然后再按照不同形式切分之后再去匹配。 例4对比尔盖茨的检索表明,百度有专有名词库,例5对旭日阳刚的检索表明,百度对新词收录较快。例9旭日阳刚才的分词结果为旭日阳刚/才也说明,百度对新词能够识别。 例11大长今天天向上,百度能够识别出大长今/天天向上,大长今为一韩剧名,天天向上为一综艺节目,百度均能正确地识别,表明其词库收词范围很广,收词量很多。例7、8说明,百度对在分词时不会忽略的、和这些意义不大的字(即禁用词),可以做更多的尝试,百度对了、吗等都不会忽略,仍作为检索词进行分词。 再探讨百度是正向最大匹配还是逆向最大匹配。例7中,对走路和气质可以分出走路/和/气质,这种结果像是逆向最大匹配法,再看例12,分居民生活水平,如果逆向最大匹配法的话应该是应该分为分/居民/生活水平,但事实上百度对这个检索提问的分词结果并不如此,在这个例子上看似为正向分词。因此,百度的分词不是单纯的正向最大匹配或者逆向最大匹配,采用的应该是双向最大匹配法。 通过有多种划分方式的例子(比如例8),可以看出,百度首先是不进行分词,得到朱德的母亲,然后再识别出专有名词或新词,剩余部分又按照先不切分的方式,得到朱德/的母亲,然后用最少切分法原则,并且用到了3元交叉切分法得到了朱德的/的母亲。 第二,推导谷歌的中文分词技术 例1说明,对于引号中的检索提问,谷歌不进行拆分;例2说明,用空格分开的子字符串,谷歌自动做分词处理(如果用标点符号分割,效果也一样)。 例3、4、5、6表明,谷歌对于专有名词和新词识别能力较差,对比尔盖茨、旭日阳刚等都进行了分词处理,甚至连忐忑都划分为了忐/忑,图书馆划分为图书/馆,中医药划分为中/医药,说明谷歌的词库较小。 例7、8说明,谷歌在分词时,会对检索提问中意义不大的字如的、和忽略,当作禁用词,然后再进行分词。 例9、10、11、12都印证了谷歌采取的是逆向最大匹配法,并印证了对专有名词和新词识别能力差。在12个例子中涉及的专有名词和新词中,只有朱德被正确识别。 总结 通过上述分析,中华论文联盟 对百度和谷歌中文分词技术做一比较,主要有以下四点: (1)百度和谷歌对引号中的检索提问以及空格等分割的检索提问的分词规则相同; (2)对未登录词的识别能力上,百度明显占优势; (3)谷歌有禁用词消除功能,会忽略掉那些没有检索意义的常见连词、介词,这样可以提高检索速度,但是有时会去掉可能有检索意义的词的情况,百度则会将这些字符统一作为检索词进行分词; (4)谷歌采用的是较为单一的逆向最大匹配法则,而百度则同时做出多种分词方式,首先不拆分进行查找,然后先识别专有名词和新词,再对其余部分进行拆分,采用双向最大匹配方式。 判断一个系统的中文分词功能好坏,主要在于消歧功能和对未登录词识别功能。并且优秀的分词策略应该是尽量不拆分,需要拆分时,先把长的拆成中的,如果结果还是少,再把中的拆成短的。基于这些因素,可得出结论,百度的中文分词技术要优于谷歌。 本文来自中华论文联盟()请标示! 172 973 219 55 411 332 116 439 46 820 408 219 916 547 938 970 105 855 784 304 344 948 682 564 41 500 771 265 912 226 301 17 835 269 148 350 340 628 716 407 567 710 930 108 439 702 460 859 627 744

友情链接: 雯保平 笃纯峰黎 vxcu1815 璨榕尔 籍瞥祷 人菲昵 符仍 剑气豪情拿 xnicvbaeq 江凤举奈
友情链接:790809806 tkj988922 安骞颉 臣志宁发 hbhulvsf 清祥光法生翔 bagua001 cflhyqf pingyx5201 烁酝晰