音频设备下载安装-大菠萝福建导航app官网下载

为什么微博评论不了
2023年4月6日发(作者:ht star ar 970驱动下载)

第24卷第3期

2014年9月

湖南工程学院学报

Journal of Hunan Institute of Engineering

Vo1.24.No.3

Sept.2014

微博垃圾评论检测与预处理技术

胡新海

(陇南师范高等专科学校,成县742500)

摘 要:针对发表在微博上评论信息的特点,尤其是那些广大网民用户不愿看到的垃圾评论信息进行

了深入研究.归纳了网络上垃圾评论的存在形式和类型,将垃圾评论分为社会网络垃圾评论和普通垃圾

评论.为了有效地检测与过滤微博中评论垃圾,提出了一种微博垃圾评论数据预处理的过程和方法,将

预处理后的评论信息作为分类和检测的基础.

关键词:微博;垃圾评论;预处理

中图分类号:TP391.1 文献标识码:A 文章编号:1671—119X(2014)03—0049--04

0 引 言

微博在带来便捷、即时信息传播的同时,微博上

的垃圾信息也困扰着网民的正常生活,人们对微博

信息传播产生了质疑.正是由于其及时性、公开性、

匿名性、平等性等特点,微博成了垃圾评论滋生和传

播的土壤,日益成为滥发目标垃圾评论的理想途

径[1 ].垃圾评论是指不是预期的消息,也可以是没

有预期到的用户.垃圾电子评论包括欺诈性垃圾评

论,图像垃圾评论,广告等,是产生电子垃圾评论、垃

圾短信便捷的平台[3“].

只要通过简单地操作,将信息发布在微博的“墙

上”,然后发送给所有的朋友和追随者.就像评论垃

圾评论发送者使用微博传播虚假,和发布非法或无

效的广告等[5].钓鱼网站和恶意软件的威胁也很常

见的威胁,虽然它没有达到攻击水平滥发电邮,它仍

然有一个潜在的网络钓鱼、恶意软件感染和身份盗

窃等功能,达到破坏正常的网络环境.

1垃圾评论的定义与分类

由于网络的开放性,人们可以在网站上任意发

表评论,这导致评论的质量低下,甚至产生恶意评

论,即由一些用户随意发布无意的评论信息,或蓄意

发表的不切实际、不真实的、有欺骗性质的评论,其

目的是达到一定欺诈性目标或制造无意义的信息,

或干扰评论意见挖掘和情感分析系统的分析结果.

这些无意义或具有目的性质的评论称为垃圾评

论E6,7,8].

1.1普通垃圾信息

微博的发展吸引了垃圾制造者的目光.在微博

中信息的发布者将广告信息,其内容主要涉及推销

产品、信息发布、产品推销等;同时也可以发布具有

色情、反动、暴力等不良信息.在微博平台上对作者

或者其他评论者进行人身攻击、辱骂等言论,发泄个

人的不满情绪,从而不顾及信息浏览者的感受.在微

博中出现一些令人厌恶的文字.

这些微博信息是比较普通常见的评论信息,检

测处理较为容易.

1.2社会网络垃圾评论

垃圾评论发送者通过图片、文字和文件实施欺

诈性评论.社会网络是最便捷快速的媒体,越来越受

到垃圾评论者的欢迎.与普通垃圾评论一样,包括书

写错误的词语,添加一些特殊符号,评论中使用一些

褒义的语句等.

2微博中的垃圾评论技术

2.1标记符号应用于微博评论中

收稿日期:2O14一O4—15

基金项目:陇南师范高等专科校级科研项目(2014LSZK02006).

作者简介:胡新海(1977一),男,硕士,讲师,研究方向:数据挖掘与云计算

50 湖南工程学院学报 2014正

位于“#”号之间的信息表示讨论“话题”,通过

这样的处理使用户搜索某方面评论时显得快速便

捷,同时浏览者看到位于#号之间的信息就很快明

白评论的主要的内容.

针对微博用户关注位于两个#之间的信息的特

点,垃圾评论发送者设法将垃圾话题或广告插入到

这个关键符号之间,以引起大家的关注.实际评论的

话题和所要讨论的话题无关.

2.2关注

针对某一话题,信息的发布者将信息发布出去

后,如果“关注”用户看到且对发布单位信息有兴趣,

会评论这一话题.那么评论的语句会在信息后面出

现,这样会使信息的发布者方便快捷的看到有人的

评论,并且及时地得以回复.同时其他浏览者也会看

到信息的发布者和评论者之间的互动.

2.3微小的网址

包括超链接或网址是常见的评论内容和形式.

许多合法的评论包含URL作为人们喜欢分享信

息.因此如果有许多字符构成的网址太长,由于在微

博中有字符限制不能发布网址.在处理的中会将几

个网址“缩短”,但是读者能理解其信息代表网址的

含义 .例如钓鱼网站与垃圾评论广告试图引

诱用户点击假冒网站或销售假冒产品广告.通过使

用一个模糊欺诈性的网址,是用户在不知道的情况

下,点击以实现一定的目的.

2.4 “@”功能

简单说@在微博里实现了几个功能:

(1)当发布具有“@昵称”的信息时,表示向@后

面的“昵称”用户说话,对方能看到你说的话,并能够

回复,实现一对一的沟通;

(2)发布的信息中“@昵称”时,浏览者可以直接

点击“呢称”转到“昵称”用户的页面,方便大家认识

更多朋友;

(3)所有@后的信息有一个汇总,转发了别人

的,转发谁的就会在他的名字前面有个@,这是由系

统自带.可以在我的首页右侧中“提到我的微博”中

查看。

通过“@”信息共享的便利操作,方便的信息共

享,但实际上并没有重新输入.用户名显示原作者的

评论,类似这种特征的答复和转发.把@用户名在开

始评论之后一个消息称为回复.把它的地方在一个

叫转发评论.微博收集并发送到用户,让他们知道什

么是正在讨论.垃圾评论发送者充分利用这些功能,

而发布垃圾评论.在垃圾评论发送者回复或消息代

替原有的超链接消息导致色情网站,钓鱼网站,或恶

意软件陷阱.

2.5发布推介信息

在评论过程中,散布、张贴广告,提示打开健康,

美容,减肥链接等,实际上是可能链接到诈骗网站.

也为了商业目的,进行自我宣传,邀请人们参加社区

组织,并提供诱惑,获得免费用餐提供等.

然而不是所有的促销信息或超链接的垃圾评

论,许多这些包含真正的信息.但是网站如微博信息

太快,很难确定哪些信息或是垃圾评论,链接是有效

的.

针对E—mail垃圾处理技术目前在许多提供电

子邮件服务的服务商通过关键字过滤技术,已经取

得了很好效果.针对微博中的普通垃圾信息和社会

网络垃圾评论分别予以研究,是非常有必要的.

3垃圾评论预处理中的方法

3.1微博信息的性质

微博就是简短的文本信息,因其快捷而备受欢

迎.大多数情况下人们只要输入词语的缩略形式,例

如人品为Rp,鄙视变为BS,thank you变为3Q.这

是在聊天和邮件中普遍使用的术语,但在微博上因

其信息容量的限制而显得尤为突出.然而这类数据

因为以下的原因在处理上又是极其困难的:

(1)在词典中找不到相应的词但能表达意义.例

如,菜鸟、青菜、FT等等.

(2)使用表情符号表达感情,比如我很高兴可以

表示为,文字和表情符号都表示相同的意义,但表情

符号更为简洁.

(3)使用外文词汇,例如Twitter信息有英文字

母但是以另一种语言写出来的.

(4)诸如the、have、then、is、was、being等单

词在构成句子结构方面不可或缺但单个的单词并不

表达任何意义,因此被称为停止词.

(5)符号和控制字符的使用使数据处理变得更

为混乱和困难.

3.2方法

在尝试了各种组合方法来移除符号、停止词等

之后,提出一种清除和处理微博信息的方法.微博所

涉及的信息包含了很多能引起混乱的内容,并不像

书籍或报刊那样条理清楚,结构完整.

3.2.1词干提取法

在词语的语言应用中,一个词在不同的句子中

第3期 胡新海:微博垃圾评论检测与预处理技术 51

通过变换词语的形式,即词语的语法形式,形成了不

同的语境中有不同的含义.在英语中这种变化会很

明显,同样在汉语中不同的词语在不同的句子中更

加明显,往往和原词语的意思相差甚远.这些都被认

为是同词根的不同语法变化.如果用户想检测某些

词语,这种的变化造成了检索系统的低查全率.这个

问题可以通过词干提取(Stemming)部分分解[1 ¨].

词干提取法是逐步缩减词汇直至其关键词的过

程.例如,“价格是非常便宜”会缩减至关键词“价

格”、“便宜”,波特词干算法就是一种这样的算法.怀

卡托智能环境分析也有词干缩减法.但在微博中有

些评论并不适用词干缩减法,因为它会导致部分词

汇的缺失.以英文单词free和freedom为例,在试验

中,单词free应为免费券,免话费等等而可能与垃

圾信息相关联.但是词干缩减发将会把单词free—

dora缩减到单词free,而这必然是不准确的结果了.

在最近几年中,许多研究人员对于使用词干提

取的优点和缺点进行了评估.显然,词干提取器提高

了查全率,同时使得检索结构变小,但是它会降低查

准率,因为许多不相干的文档被认为是相关的.尽管

研究人员进行了许多实验,但是仍然没有确凿的证

据支持一种方法或者另一种方法.所以在实际应用

中,用户应该利用文件数据集去测试是不是词干提

取方法会有所帮助.

3.2.2停止词的移除法

停止词是指像“是、和、你、我、他”等词,大多是

介词和代词,作为句子的作为句子的有机组成部分,

并不表达任何实际意义.在处理是将这些停止词去

掉,排除这类词的干扰,在互联网上有很多停止词

表.

3.2.3词干的提取法

在语言的应用当中,会出现一个词在不同语言

应用环境中出现不同的含义,这主要是由于这些词

在句子中出现的位置、词性及充当的句子成分有关

系.这种变化被认为同根词的不同语法的变化.由于

出现这种变化,会大大干扰系统检索的效率,导致检

索时系统的查全率不高,进而影响检索的结果.

针对此类问题,在处理时采取词干提取的方法.

即简化词,去掉它的变化形式,还原单词本来的“面

目”——词根.

3.2.4其他文本预处理

(1)数字(Digits):在传统的IR系统中,那些包

含数字的数词和词会被移除,除了一些特别形式的,

例如:日期,时间以及其他能够被标准公式表示的特

别形式.但是,在搜索引擎中,它们仍然要被索引.

(2)连字号(Hyphens):连字号的使用在实际中

始终存在矛盾,例如:一些人会使用“state—of—

the—art”,但是另一些人会使用“start of the art”.

如果在第一个例子中的连字号被删除,我们就排除

了矛盾.但是在一些词中,连字号是构成完整词的重

要元素,例如:“Y一21”.因此,通常说,系统会采取

一些普遍的规则(例如:移除所有的连字号),同时也

会有一些例外.注意,这里有两种类型的移除方法.

例如:第一种方式是每一个连字号替换成一个空格,

第二种方式是对每一个连字号仅仅作删除,而不加

上空格.所以,“state—of—the—art”将被化成两种

形式“state of the art”或者“stateoftheart”.在一些

系统中,两种形式都将被索引,因为很难判定哪种是

正确的.

(3)标点符号:标点符号的处理方式可以与连字

号的处理方式一样.

(4)字符大小写:所有的字母通常都会统一转化

成大写或者小写.

3.3微博评论数据预处理所采取的方法

以下是对微博评论所采取的数据预处理方法,

以提高识别垃圾评论的效率.

(1)识别和移除信息文件中的所有表情符号并

保存在另一个独立的文件中,以此来确保不会丢失

任何信息.

(2)接着识别所有的超链接,并以单词URL来

代替,这会压缩信息的长度便于理解.提取的所有超

链接地址保存在另一个独立的文件中.

(3)然后对每条信息进行标记,就是将信息分开

进行标记而不是以句子的形式保留原形,因为每次

看到的都是单词,标记将使预处理变得快捷,这即为

标记的缘由.

(4)标记完毕,便开始识别每一个标记的内容中

是否包含标点符号并加以清除.所使用的标点符号

表单包括{,},[,]等符号.

(5)紧接着检查标记的信息中是否有控制字符.

控制字符也必须移除.

(6)最后将所有清除完备的标记信息组合为一

个标记文件.

以上所有的步骤都是在微软结构化查询语言服

务器中使用Java程序和结构化查询语言来进行实

施.图1详细描述了以上过程.尝试在每一个步骤尽

可能多的保留有完整意义的信息.

52 湖南工程学院学报 2014拄

4结束语

图1预处理流程图

通过对微博垃圾评论信息的研究,将微博垃圾

评论分为普通垃圾信息和社会网络垃圾评论,同时

分析了这垃圾评论存在形式,以及为了实现隐秘和

欺诈性而分别使用的技术.数据预处理是微博垃圾

评论识别与检测的基础.文中介绍了停止词的移除

法和词干提取法对数据预处理方法,进而针对微博

信息的特点,提出了一种微博垃圾评论与检测预处

理方法与过程,并通过流程图表示出来,使数据预处

理直观清晰.本文提出的数据预处理,为后期的微博

垃圾评论检测与识别打下良好的基础.

参考 文 献

Eli孙升芸,田 萱.产品垃圾评论检测研究综述EJ].计

算机科学,2011,38(10):198—201.

Ez] C.Castillo,D.Donato,L.Becchetti.et a1.A Referenee

Collection for web Spam[J].ACM SIGIR Forum,

2006,4O(2):11—24.

E3-i Yardi S,Romerao D,Boyd D et a1.Detecting Spam in

a Twitter Network[J].First Monday,2010,15(1):

117—119.

E43 Wang A.Don t follow me:Twitter Spam Detection.

Proceedings of 5th International Conference on Securi-

ty and Cryptography(SECRYPT)I-J].Athens,2010:

12—15.

E51 Mowbray M.The twittering machine[J].Journal of

Applied Statistics,2010,17(2):211—217.

[63 Bing Liu.web Data Mining:Exploring Hyperlinks,Con—

tents and Usage Datal-M].Springer,2007:428—447.

[7]邓冰娜.面向博客的垃圾评论识别方法研究[J].河北

大学学报,2011,72(12):66--71.

[8]胡新海.中文网络产品评论欺诈性问题的研究[J1.内

江师范学院学报,2012,6(27):30—33.

[9]Graham-Cumming,J.The Spammers"Compendium[J/

OL].http:7 f ww gc.org/tsc.htm1.

[1O]bit.1y[EB/OL].http://bit.1y/,last accessed February

2011.

[113 Tinyurl[EB/OL].http://tinyur1.com,last accessed

July 2010.

[12]Bing Li.Web数据挖掘[M].俞勇,薛贵荣译.北京:

清华大学出版社,2009.

[13]刘红岩,陈剑,陈国青.数据挖掘中的分类算法综述

[J].清华大学学报,2002,42(6):727—730.

Detection and Pretreatment Technology About

Microblog Comment Spam

HU Xin—hai

(Longnan Teachers College,Chengxian 742500,China)

Abstract:Based on the characteristics of the information in the Microblog comment,the comment spam in—

formation which interret users are not willing to read is studied in details.The existing forms and types of

network comment spare are summarized.The comment spam is divided into social networking spare and

spam comments.In order to effectively detect and filter the Microblog comment spam,the procedure and

method of pretreatment Microblog comment spam data are proposed,on the basis of classification and de—

tection。

Keywords:Mieroblog;spam comment;preprocessing

更多推荐

为什么微博评论不了