博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《数学之美》——第四章 个人笔记
阅读量:5301 次
发布时间:2019-06-14

本文共 739 字,大约阅读时间需要 2 分钟。

第四章     谈谈分词

1 中文分词方法的演变

最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。

随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。

郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出现的概率最大。里面涉及到动态规划和维特比算法,有张图表示过程:

这里提到:统计语言模型很大程度是依照‘’大众的想法‘’,或者说‘’多数句子的用法‘’,百分百是不可能的。

有关分词的两点说明:

⭐①不值得花大精力去进一步提高准确率,提升空间有限。

⭐②英文和主要西方语言原本无须分词的,手写体的原因(词与词之间写的时候常常无停顿)

 

2 延伸阅读:如何衡量分词的结果

2.1    分词的一致性

一个准确率在97%的分词器很难讲比一个准确率在95%的分词器要好,因为要看他们选用的所谓正确的人工分词的数据是如何得来的。

2.2    词的颗粒度和层次

人工分词产生不一致性的原因主要在于人们对词的颗粒度的认识问题。不同的应用中,会有一种颗粒度比另一种更好的情况。

机器翻译中颗粒度大好——"联想公司";网页搜索中小颗粒度好——"清华大学"。

不同的应用构造不同的分词器?不必要且浪费。⭐好的做法是让一个分词器同时支持不同层次的词的切分(原理和实现文中有具体说明)

⭐分词的不一致可以分为错误颗粒度不一致两种

错误又分成两类:一类是越界型错误,‘北京大学生’分成‘北京大学-生’;另一类是覆盖性错误,‘贾里尼克’分成四个字。

颗粒度不一致:人工分词的不一致大多属于此类,要不断完善复合词的词典。

 

转载于:https://www.cnblogs.com/NEWzyz/p/8933014.html

你可能感兴趣的文章
Java_正则表达式
查看>>
Linux内核分析——第二周学习笔记
查看>>
windows基本命令
查看>>
Qt图片显示效率的比较(转)
查看>>
VMware中CentOS设置静态IP
查看>>
剑指Offer_编程题_7
查看>>
js 变量大小写
查看>>
Linux系统的启动原理
查看>>
JDesktopPane JInternalFrames
查看>>
错误The request sent by the client was syntactically incorrect ()的解决
查看>>
Java基础知识学习(九)
查看>>
redis在windows下总是报错,就是下面的错误,这是哪里出错了
查看>>
Asp.net窄屏页面 手机端新闻列表
查看>>
Linux 密钥验证
查看>>
windows下UDP服务器和客户端的实现
查看>>
NetAdvantage webdatagrid 控件的一些属性
查看>>
MySQL各版本的区别
查看>>
[poj1006]Biorhythms
查看>>
迭代器
查看>>
elasticsearch type类型创建时注意项目,最新的elasticsearch已经不建议一个索引下多个type...
查看>>