教你搜索想要的微信小程序:附带最全小程序名单 - IT开发者资讯_互联网资讯 - kjson
更多精彩内容 扫码关注我们

教你搜索想要的微信小程序:附带最全小程序名单

互联网 > 2017-01-10 10:31:54 来源: IT之家

想必各位的朋友圈已经被微信小程序刷屏了,然而细心的观众可能发现了一些问题:

1.小程序名字怎么都奇奇怪怪的?

2.怎么也搜不到自己想要的小程序?

比如下面,简直惨不忍睹,如果不是提前知道完整全名,几乎搜不出来。

教你搜索想要的微信小程序:附带最全小程序名单

于是,犀利的网友开始吐槽:

对于一个APP重度使用者来说,小程序意味着一早上起来就解英格玛密码

然而雷锋网发现,有的小程序只有通过全文才能搜索出来,然而搜索「京东」却能出来「京东购物」、搜索「滴滴」也能出来「滴滴出行DiDi」、搜索「携程」也能出来「携程酒店机票火车票」,这又是为何?

这里就涉及到了一个「中文分词」技术和「模糊匹配」技术了。(对技术科普没兴趣的可直接跳过,后面有小程序名单和商店)

中文分词技术

我们知道,在英文的行文中,单词之间有空格作为自然分界符,比如下面这句:

I am very handsome !

可以轻松地分成i、am、very、handsome四个单词。而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。

比如这一句广告语:

南京市长江大桥欢迎您!

你可以理解为:南京,市长,江大桥,欢迎,您;也可以理解为:南京市,长江大桥,欢迎,你。不同的分词方法得到的结果就截然不同。

现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区,比如:

对随地吐痰者给予处罚

“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,同样的“海上”“酒厂”等等,即使是同一个人也可能做出不同判断,如果汉语真的要分词书写,必然会出现混乱,难度很大。

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。和英文相比,中文分词难得多得多!

然而这并难不倒程序员们。

常见的分词算法分类

目前的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法

字符匹配

又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

这是种常用的分词法,字符串匹配的分词方法,又分为几种不同的分词方法。同样以“不知道你在说什么”为例,不同的匹配法有不同的结果:

用正向最大匹配法,也就是把一个词从左至右来分词,就是:“不知道,你,在,说什么”。

用反向最大匹配法:

【更多相关】: 分词 程序 匹配 助手 App 计算器

相关推荐:

热门推荐