搜索引擎怎样精准识别中文搜索语言,搜索关键
作者:达玛网络 2021-07-18
================================ 搜索引擎怎样精准识别中文搜索语言,搜索关键词的特性,达玛网络

搜索引擎分词的技术难点。有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此,中文是一种十分复杂的语言,让计算机理解中文语言更是困难,在中文分词过程中,有两大难题一直没有完全突破。
  1、歧义识别歧义是指同样的一句话,可能有两种或者更多的切分方法,主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”,这种称为交集型歧义(交叉歧义)。

像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因为交集型歧义引起的错误,“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”,由于没有人的知识去理解,计算机很难知道到底哪个方案正确。交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。



例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词,这些词计算机又如何去识别?如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义,真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词,例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

    2、新词识别命名实体(人名、地名)、新词,专业术语称为未登录词,也就是那些在分词词典中没有收录,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解,句子“刘元良去广州了”中,“刘元良”是个词,因为是一个人的名字,但要是让计算机去识别就困难了,如果把“刘元良”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项既不划算又巨大的工程,即使这项工作可以完成,还是会存在问题,例如:在句子“刘元良好不错的”中,“刘元良还能不能算词?



青海省山东省各市区县名字   青海省   西宁市 格尔木市 德令哈市   山东省   济南市 青岛市 威海市 潍坊市 菏泽市 济宁市 莱芜市 东营市   烟台市 淄博市 枣庄市 泰安市 临沂市 日照市 德州市 聊城市   滨州市 乐陵市 兖州市 诸城市 邹城市 滕州市 肥城市 新泰市   胶州市 胶南市 即墨市 龙口市 平度市 莱西市网站建设           达玛网络做百度,360搜索,搜狗,新浪,网易,搜狐,腾讯视频,爱奇艺,优酷,网站建设,电脑维修,户外广告设计安装制作,各个行业的网站等全网宣传推广,通过大量的网页和网站让企业信息时刻曝光,让产品随时被客户看到,让品牌无处不在 www.damawl.com 电话微信:15826448180 QQ:790624584
======
[Back]

文章内容