truncate-qq4 6

搜狗输入法下载mac
2023年4月4日发(作者:怎么开通支付宝)

0引言

齐夫定律在中文输入法中的应用

刘齐进

(华中师范大学信息管理学院 湖北 武汉430079)

摘 要:介绍了主流的中文输入法,研究了影响中文打字速度的因素,分析了利用齐夫定律

去设置输入法的简码码表以缩短码长、从而提高打字速度的可行性.提出了依据齐夫定律设置

简码码表的详细步骤。并利用Python、结巴分词、Excel、EmEditor等工具针对小说《围城》的数据

实例尝试以小鹤双拼为例设计出其一二三级单字简码以及二简词和三简词。该方法对中文输入

法的发展与创新有一定指导意义

关键词:齐夫定律;中文输入法;打字速度:简码码表设置

中图分类号:TP391.1 文献标识码:A doi:10.3969/j.issn.1665—2272.2017.07.005

随着时代的发展.现在人类的生活已经和电子产

品的联系越来越紧密,电脑、平板、手机随处可见,成为

我们工作、学习和娱乐的一部分。在这样的环境下,拥

有高效率的输入方式则显得尤为重要.能为我们节省

大量的时间

目前的输入方式主要有实体键盘输入、触摸屏键

盘输入、语音输入这几种。语音输入技术上还尚有不成

熟的地方,使用场景也受到限制。触摸屏输入由于一般

只会用到一到两个手指.输入效率明显不如能用上10

个手指的实体键盘。所以一般也多用于手机和平板。当

需要生产力的时候.实体键盘依旧是我们进行输入的

主流方式 因此。本文主要就针对计算机的实体键盘设

计的输入法进行讨论

为了提高中文输入的速度.结合信息计量学中的

齐夫定律.可以为我们提供一个全新的视角和思路 本

文将对这个思路进行分析、验证.并对具体的步骤进行

实践操作

1齐夫定律及中文输入法

1.1齐夫定律

齐夫定律是由哈佛大学的语言学家乔治.金斯利.

齐夫于1949年发表的实验定律。它可以表述为:在自

然语言的语料库里.一个单词出现的频率与它在频率

表里的排名成反比 所以.频率最高的单词出现的频率

大约是出现频率第二位的单词的2倍,而出现频率第

二位的单词则是出现频率第四位的单词的2倍 这个

收稿13期:2017—02—15

14科技创业月刊2017年第7期

定律被作为任何与幂定律概率分布有关的事物的参

考。

齐夫定律是一个实验定律.而非理论定律.可以在

很多非语言学排名中被观察到.例如不同国家中城市

的数量、公司的规模、收入排名等齐夫定律已经在语言

学、情报学、地理学、经济学、信息科学等领域有了广泛

的应用.而且取得了不少可喜成果。

1.2主流中文输入法

输入法(IME)是指为了将各种符号输入计算机或

其他设备(如手机)而采用的编码方法。汉字输入的编

码方法.基本上都是采用将音或者形与特定的键相联

系.再根据不同汉字进行组合来完成汉字的输入的。主

流中文输入法主要包括拼音输入法和五笔输入法

1.2.1 拼音输入法

拼音输入法是按照拼音规定来进行输入汉字的。

拼音输入法包括全拼、双拼和简拼。由于简拼若单独使

用会造成过高的重码率.所以一般简拼都是配合全拼

或者双拼一起使用

(1)全拼输入法:目前大部分人使用的中文输入法

总体上都属于全拼输入法 全拼是汉语拼音输人法的

一种编码方案 通过全拼输入汉字时需要输入汉字的

全部拼音(包含声母和韵母,通常不包括音调),击键次

数比双拼、简拼多

随着中文输入法的发展.现在流行的智能输入法,

是在全拼输入法的基础上。加入了简拼、整句输入等功

能,比如搜狗输入法、QQ输入法、百度输入法等等,但

其最核心的部分仍然是全拼输入法。

(2)双拼输入法:双拼(也称双打)是一种建立在拼

齐夫定律在中文输入法中的应用

音输入法基础上的输入方法.可视为全拼的一种改进.

它通过将汉语拼青『}1每个含多个字母的声母或韵母各

自映射到某个按键上.使得每个音都可以川最多两次

按键打….檄大地提高了拼音输入法的输入速度 这种

声母或韵 到按键的埘应表通常称之为双拼方案.这

种方案 是同定的.现在流行的大多数拼音输入法都

支持蚁拼.并且有各自不同的方案,还允许用户白定义

方案.

州 常 的厅案包括小鹤双拼、自然码、微软双

拼、搜狗舣拼等方案..这些方案的主要区别在于韵母的

键位安排 双拼足川定义好的 字母代替较长的多字

母韵{ 或,旨母来进行输入的一种方式 例如:如果U=

sh,l:ual1g,键入l埘个字母“ul”就和输入完整的拼音

“shuang"等效、使川舣拼可以减少击键次数,虽然需要

记忆字坶对应的键位.但是熟练之后效牢会有一定提

1.2.2五笔输入法

五笔字型输入法(简称 笔)是工永民在1983年8

月发叫的一种汉字输入法 为发明人姓1二.所以也称

为“王码五笔”. 笔字型完全依据笔面和字形特征对

汉字进行编码.是典 的形码输入法 五笔是目前中同

以及一些东南亚 家如新加坡、马来西亚等同的最常

』}j的汉字输入法之一、五笔相对于拼音输入法具有重

码率低的特点.熟练后可快速输入汉字 五笔字型自

1983 -2诞生以来._,庀后推出= 个版本:86五笔、98五笔

和新t!ffd五笔、

和拼音输入法不同,五笔输入法是按照字形来进

行汉宁输入的 “笔规定了汉字中的一些部件,ⅡU做

“字根”. 个字都f可以拆分为各种字根 原理上,输入

字的『1l『候只需依次输入这些字根即可(暂不考虑末

笔字型识别码) 如果说拼音输入法类似于说话是根据

读音米的.五笔输入法则类似于我们用手}5写汉字是

根据字形来的

2影响中文输入速度的因素

【f1义输入速度的汁苒公j=I=为:

平均每分钟输入汉字总数:平均每秒击键数/平均

码长*60(个)

为_r便于理解,简 举例说明:假设一个人,每秒

可以按6下键盘. 假设他平均输入一个汉字需要输

入4个字符.那么他的打字速度就是6/4*60=90,即他

平均每分钟可以输入90个汉字

可 .影响lf1文输入速度的直接因素为击键速度

和平均 长,

2.1击键速度

击键速度指的是一个人平均每秒能敲击几次键

盛,.很 然.在码长不变的情况下,敲击速度越快.打字

速度越快。以下冈素会对击键速度造成影响。

2.1.1 对键盘的熟练程度

我们平时使用的电脑键盘,一般都是Qwerty l布局

而其它键盘布局中,最常见的是Dvorak布局。这两种键

盘布局在Windows系统的控制面板中可以进行设置

一 ! 静 l ;% ^- 《 } { ; h

1 2 i 3,4 l 5 le 7 ¥;口 O 【 }●■■●__

苎;《: ? Io-c ij :

盎 -‘ 魄lA {O {嚣 u l 牡 }H ;T }N S y l釉 ◆ :{._J

-矗 : ro a X X 8 W V Z ●嗍

o - Q

i==;

图1 Dv‘Ir2lk键盘布局

一个人敲击键盘的速度.与他对键盘的熟练程度

是有关的.这也是为什么使川Qwerrv布局人如果想尝

试Dvorak布局需要一定的练习时间才‘能熟练运用 、

2.1.2对输入法的熟练程度

除了对键盘本身的熟练程度.另一个影响击键速

度的 素是对输入法的熟练程度 一个用了十年五笔

输入法的老手.肯定比刚开始学习五笔的新手打字要

快得多.这就是对中文输人法的熟练程度了,拼音也是

同理。

2.1.3输入法的确定性

一个人.对键盘和输入法的熟练程度是有极限

的——根据每个人天赋不同.经过数个月至若干年的

练习.一个人对同一个输人法的熟练程度则儿乎到达

自己的极限 这个时候.影响他击键速度的还有一个关

键 素.即输入法本身的确定性如何

输入法的确定性体现在同一个输入码对应多少个

选项上 以全拼为例,vizhi这个输入码,可以对应“一

直”、“一致”、“意志”、“抑制”、“移植”等等多个候选浏,

需要我们人为去选择 假没一个输入码对应了太多选

项.则需要人为去从多个选项中找到合适的汉字甚至

需要翻贞去查找.这种不确定性会大大减缓敲击键盘

的速度. 为人们需要不停地在候选框中进行选字和

选词的操作

为了解决输入法的不确定性.增强每个输入码的

确定性.主流输入法有两种思路:一个思路是以全拼输

入法为代表的整句输入.通过增加输入码的长度并利

用云计算来减小重码率——该方法学习成本小,但对

打字速度的提升有限:另一个思路是以五笔输入法为

代表的字词模式.尽量让4个字符指向唯一确定的一

个单字或者词语.四码上屏.这样在输入的时候可以做

到完全不看候选框进行打字.从而大幅提升打字速

度——该方法学习成本很大.需要较长的练习时间,但

对打字速度提升效果显著

2.2 平均码长

平均码长指的是每输入一个汉字.平均需要敲击

PIONEERlNG WITH SCIENCE&TECHNOLOGY MONTHEY NO 7 201 7 15

齐夫定律在中文输入法中的应用

几次键盘(空格和退格键也包括在内)。很显然,在相同

的击键速度下.码长越短,打字速度越快。以下因素会

对平均码长造成影响

2.2.1 输入法自身的码长

不同输入法,本身就会产生不同的码长。以“双”字

为例,全拼中得输入shuang,码长最少为6,而双拼中则

只用输入两个字符即可,码长最短为2(如小鹤双拼中,

双字的输入编码为u1)

通过缩短码长来提高打字速度的思路有两种。一

种是类似于将全拼进行映射的双拼输入法.比如对于

“双”字,小鹤双拼的方案中,将声母sh映射为u,将韵

母uang映射为1.这样本来码长为6的shuang则被压

缩为码长为2的ul

另一种思路是设置简码.比如“计算机”这个词.全

拼中为iisuanji,在小鹤双拼中为iisrji,而如果设置简

码,则用isj即可。在全拼中,可以通过开启简码输入来

缩短码长,但是会增加不确定性。在字词模式的输入法

中,单字的完整码长为4码,词的完整码长也为4码,

则可以对单字设置一级简码、二级简码和三级简码,以

及对词设置一些二简词和三简词.而且字词模式中只

要设置简码时合理选择、适当处理,可以避免不确定性

的增加。具体方案的实现将在下一节中详细叙述。

2.2.2 回改率

回改率与击键的准确率负相关 如果经常输错字

符而需要用退格键去删除、然后再修改,会大量增大码

长。这一点对任何输入法都适用。所以提高敲击键盘的

准确率,减少回改率能缩短码长,以提高打字速度。

3齐夫定律在缩短码长中的应用

3.1利用齐夫定律来缩短码长的原理

根据第四节的介绍.我们知道有一种提高打字速

度的方法就是缩短码长 而有一种缩短码长的方法就

是设置简码。那么将齐夫定律应用于设置输入法的简

码中.就能通过缩短码长来提高中文打字速度。

正是因为词频分布曲线在一定程度上满足齐夫定

律.高频词的积累频率是一开始快速增长.后来才逐渐

变慢的。对于单字频率也有类似规律。这就保证了只需

要取频率前1 000甚至前500的单字.就已经覆盖了大

部分的文字。以小说《围城》为例,根据本人的统计结

果.虽然小说中一共出现了3 296个不同的汉字.但小

说中90%的汉字,都仅仅来自于最高频的840个汉字。

词语也有类似规律.最高频的前1 000个词汇,已经覆

盖了小说中50%的文字 这个现象说明对输入法设置

简码是很有意义的.因为我们平时需要输入的大部分

汉字都来自于最高频的那几百个汉字。在字词平台的

输入法中(比如五笔输入法、小鹤双拼输入法),输人一

个汉字,完整的码长应该为4码;而设置简码后,一级

16科技创业月刊2017年第7期

简码中的汉字码长为1码.二级简码中的汉字码长为2

码.很显然通过设置简码能大大缩短码长,并且齐夫定

律保证了我们设置的这些简码在平时输入时会经常被

用到。

3.2利用齐夫定律设置输入法简码码表的具体步骤

3.2.1 收集大量文本用于统计分析

在实际中.若要设置输入法的简码码表,需要统计

大量的文本进行字频和词频分析。

这里为了简单说明问题.只选取了钱钟书的小说

《围城》进行分析,总字数约25万字。

3.2.2 中文分词

对需要进行词频统计的文本.先进行中文分词的

预处理

有很多分词工具可以选择,这里对于小说《围城》

的分词.选用了Python中较好用的结巴(Jieba)分词组

件完成

3.2.3 字频分析和词频分析

进行完中文分词处理之后.就可以进行字频分析

和词频分析.以用于设置输入法的简码码表了。所使用

的工具为:利用Pvth0n进行词频统计,并利用Excel进

行后续统计分析

O l 2 3 4

图2小说《围城》的单词频率分布曲线

图2说明单字频率在一定程度上符合齐夫定律。

对单字设置一级简码、二级简码、三级简码有重要意

义。

一2

次数对数

图3小说《围城》的词频分布曲线

图3说明二字词的频率在一定程度上符合齐夫定

律.对输人法设置二简词有重要意义。对三简词的设置

同理。

3.2.4设置单字的一级简码、二级简码和三级简码

这里.我们以字词平台的输人法小鹤双拼为例说

明如何设置单字的简码。使用的工具为Excel和支持正

则表达式的文本编辑器EmEditor。

一级简码.只有1个字符,对应于键盘上的26个

字母.每个字母对应一个汉字.该字母作为相应汉字的

一级简码 设置一级简码的方法则是对于a,b、C……X、

齐夫定律在中文输入法中的应用

y、z这26个字母,分别取拼音输入码以a、b、c……z开

头的最高频的26个汉字

根据表1中小说《围城》的统计结果,我们发现,双

拼输入码以d开头的汉字中.“的”字出现的频率最高.

所以将汉字“的”收入一级简码汉字.其对应简码为d。

如果统计文本足够多.我们会得出如下结果:a开

头的字“啊”频率最高.b开头的字“不”频率最高.C开

头的字“才”频率最高……Z开头的字“在”频率最高.依

据这种方法.26个一级简码汉字及其相应简码则设置

完毕。

类似的.二级简码则是取输入编码为2码的组合

中。出现频率最高的汉字。比如输入编码为an.这些汉

字中“安”字的频率最高.则取“安”字收入二级简码汉

字.对应二级简码an。三级简码汉字的设置方法同理。

以后在输入这些有简码的单字的时候.直接输入

简码+空格即可,不再需要输入完整的4码了。

3.2.5设置二简词和三简词

除了单字。词汇同样可以设置简码 还是以小鹤双

拼为例.比如表2中的“自己”这个词。在小鹤双拼中完

整编码应该为ziji,但对于这样的高频词可以设置为二

简词.编码取两个汉字的首码,即zj为“自己”的简码。

三简词设置方法同理,如“计算机”的简码设置为jsj。

设置二简词和三简词的时候要注意避免和单字的

编码出现重码。如果出现重码。则以单字优先.不取词

汇的简码.输入该词汇时依旧输入全码。把简码空间让

给单字。根据小说《围城》的统计结果,其中90%的汉

字.都来自于最高频的840个汉字,高频汉字的覆盖面

相当广:而最高频的前1 000个词汇。只覆盖了小说中

50%的文字(相比单字覆盖面显得不足),这就是简码空

间词汇要让给单字的原因.要让简码空间得到最大化

的利用

4 结语

词频统计是在数理语言学、情报学、信息学和文献

计量学等学科中都普遍运用的一种基础性研究方法。

主要通过统计一定长度范围内语料或文本中词语出现

的次数和频率,依据词语频次的高低制作出词表,分析

具体的统计结果,试图找出蕴含在词表中的规律及其

设定学科之间的联系。齐夫定律则是根据词频统计.发

现了一个单词出现的频率与它在频率表里的排名成反

比的规律

依据齐夫定律的词频规律。并将这个规律延伸到

中文的字频分析中.本文详细分析了影响中文输入速

度的因素和提高打字速度的方法.并分析了利用这样

的规律去设置输入法的简码码表以缩短码长从而提高

打字速度的可行性,并且通过对小说《围城》的数据处

理,提出了设置简码码表的详细步骤及操作方法 将信

息计量学的规律应用于中文输入法中.是一个全新的

视角,这个思路也对于今后中文输入法的发展和提高

也有一定指导和实践意义

参考文献

1 邱均平.信息计量学[M].武汉:武汉大学出版社,2007

2郭强,刘俊友.信息计量学导论[M].合肥:合肥工业大学出版

社.2007

3周基桑,何克.办公及家用电脑入门[M].合肥:中国科学技术

大学出版社.1996

4吴劲松,何莹等.五笔打字[M].北京:机械工业出版社,2006

5邓凌卿.关于检测齐夫定律对产出性词汇测量效度的实证研

究[D].上海:华东师范大学,2014.

6何凤远.基于词频统计的齐夫定律汉语适用性研究『D].合肥:

安徽大学.2011.

7 叶飞.一种基于齐普夫定律的识别语料中高低词频分界点的

新方法及其应用[D].天津:南开大学,2014.

8张忠友.齐夫定律的理论基础及其实践意义[J].情报科学,

1989(5)

9陈海伦.对齐夫定律的几点再认识[J].广西大学梧州分校学

报,1998(2)

l0孙清兰,王肇建.齐夫定律的词等级确定方法探讨[J].东北师

大学报(自然科学版),1993(3)

11何凤远.中文词频分布与齐夫定律的汉语适用性初探[J].现

代语文(语言研究版),2010(10)

l2杨少华.中文输入法若干相关问题研究[D].上海:上海交通

大学.2013

13戴石麟.汉字编码输入法研究[D].重庆:重庆大学,2005

(责任编辑吴汉)

The Application of Zipf’S Law in Chinese Input Method

Abstract:This thesis introduced the major Chinese input methods and studied the factors that affect Chinese

typing speed,then analyzed the practicability of building the Brevity Code of Chinese IME in order to increase

our typing speed.The procedure of brevity code setup is introduced in details.With the tools of Python,Jieba,

Exce1.EmEditor and the data computed in the novel “fortress besieged”,the brevity codes of single Chinese

character and Chinese words for xiaohe shuangpin IME have been designed.This thesis may help with the im.

provement of Chinese input method due to its original method and idea.

Key words:Zipf’S law;Chinese input method(IME);typing speed;brevity code setup

pInNFFRIN(;WITH SrIFNrF只f TFrHNnl n Y MnNTHl Y,Vn 7 ,n1 7 17

更多推荐

搜狗输入法下载mac