- 授权方式:共享软件
- 界面语言:简体中文
- 文件大小:未知
- 更新时间:2014-02-01
- 资源类型:国产软件
- 推荐等级:★★★☆☆
- 平台环境:Win2003,WinXP,Win2000,Win9X
- 作者主页:点击查看
- 演示地址:点击查看
详细介绍 – [ SCWS简易中文分词系统 v1.2.2 ]
SCWS是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。
这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。
SCWS采用纯C语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括GBK、UTF-8等。此外还提供了PHP扩展模块, 可在PHP中快速而方便地使用分词功能。
分词算法上并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试准确率在90%~95%之间, 基本上能满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于2005年底。
SCWS简易中文分词系统 1.2.2 更新日志:
1) 改进中英夹杂的长词复合分法,比如 "奥迪A6/奥迪/A6"
2) 修正 pscws23 演示文件的一些写法与新版 PHP 不兼容
3) 修正一些 configure 检测错误
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 提示下载完但解压或打开不了?
- 找不到素材资源介绍文章里的示例图片?
- 站壳网