论文范文

基于SVM的重复网页检测算法分析论文

时间:2022-10-11 04:18:13 论文范文 我要投稿
  • 相关推荐

基于SVM的重复网页检测算法分析论文

  引言

基于SVM的重复网页检测算法分析论文

  随着互联网的发展,网络上的文本信息越来越容易复制,由此产生了大量的重复网页和镜像文档,这一方面增加了网络爬虫的负担,另一方面降低了用户体验。因此,越来越多的学者关注重复网页检测这一领域。

  对于重复网页可以定义为内容完全重复和近似重复,对于完全重复的网页可以计算其MD5值,通过比较网页问MD5值是否相等即可作出判断。因此,本文只讨论近似重复网页的检测。大量重复网页的产生基本上是通过用户转载,如一些新闻文章、热门事件及经典文章等,也就是说一般重复网页改动比较小,如加入引文信息、插入广告导航等。

  本文把相似网页的比较转换成二元分类问题,即两张网页相似标记为+1(相似),否则标记为-1(小相似)。SVM(Support Vector Machine)算法在文本分类中取得了较好的效果。因此,本文采用SVM算法对每对网页分类,通过训练数据的学习得到分类判别函数,由判别函数对新的数据进行计算。

  1相关研究

  目前,对重复网页检测问题已经提出了很多解决方案:有基于字符串比较的方法,即按小同粒度提取指纹,有基于词频统计的方法,还有基于聚类的方法等。

  Border提出将文本中连续的n个term序列作为文本的一个特征,称之为二shingleo M-Theobald等人提出的SpotSig算法,以停用词作为先行词,提取其后的k个词形成一个个特征,使用Jaccard计算相似度。

  哈工大张刚等人把句号作为一个提取位置,分别在句号两边L/2长的词串构成网页的一个特征。清华大学吴平博等人提取每个句子中首尾字符作为特征串。彭渊等人提出将两篇文档的最长公共子序列(LCS)作为特征码。

  2算法实现过程

  2. 1特征码提取

  网页通常由以下几部分组成:标题、正文内容、链接和广告等。正文是原始网页中真正描述主题的部分。本文采用通用网页正文抽取算法州提取网页的正文内容,网页中其余部分当作噪音过滤掉。

  从长段落中提取特征码,可以减少一些次要特征,使计算更简洁。长段落定义:段落的长度要大于设定的阈值或以句号、问号、感叹号分割得到的句子数大于设定的阈值。

  提取出长段落后,以逗号、句号、感叹号和问号分割得到每个句子,提取每个句子首尾各L/2个字作为特征码;把各个特征码按序组成特征串,该特征串代表了该篇文档。

  2. 2相似度计算

  在比较特征串差异性的基础上得到网页的相似度。目前,比较文本之问差异算法主要有两大类:一类是基于最短编辑距离算法;一类是基于最长公共子串算法。最短编辑距离算法是以字符串八变成另一个字符串B的过程中,通过插入字符、删除字符、替换字符等操作的次数表示两个字符串的差异,数值越小字符串的差异越小算法表示字符串八和字符串B的最长公共子串长度,数值越大字符串的差异越小。

  通用的做法是根据以上计算出的相似度数值,作一些规范化处理后与阈值比较。但是在现实中阈值的设定往往是依靠经验来设置的,因此很难设定准确,这样就有误差。本文采用了监督学习算法,通过学习得到的判别函数来判断文档是否相似,避免了人为设定阈值带来的风险。

  2. 3支持向量机(SVM )

  2. 3. 1 SVM简介

  支持向量机是一种二元分类模型,它的基本模型是定义在特征空间上的问隔最大的线性分类器。在重复网页检测应用中,我们把每对网页中计算出的特征定义如过程中,通过插入字符、删除字符、替换字符等操作的次数表示两个字符串的差异,数值越小字符串的差异越小算法表示字符串八和字符串B的最长公共子串长度,数值越大字符串的差异越小。

  通用的做法是根据以上计算出的相似度数值,作一些规范化处理后与阈值比较。但是在现实中阈值的设定往往是依靠经验来设置的,因此很难设定准确,这样就有误差。本文采用了监督学习算法,通过学习得到的判别函数来判断文档是否相似,避免了人为设定阈值带来的风险。

  2. 3. 2操作流程

  SVM在重复网页检测应用中的大致流程,主要分为训练阶段和测试阶段。训练阶段主要从预先给定的数据集中学习并建立分类器,得到判别函数。因此,训练数据的好坏对于分类器的性能至关重要。测试阶段用来分类未知结果的数据集,可以判断出文档集中与输入文档重复的文档,即把文档集中每个文档与输入的文档使用判别函数计算

  2. 4算法描述

  本文算法大致分为3大步:提取特征串、衡量指标和构造分类器。

  3结语

  本文提出一种使用机器学习的方法检测网页是否重复,通过训练数据构造SVM分类器。提取网页特征串,计算两个特征串的相似度,使用SVM判别函数计算。实验表明:加入两个网页间的长度差异值能提高算法的准确率和查全率。

【基于SVM的重复网页检测算法分析论文】相关文章:

毕业格式修改论文重复率改10-26

本科论文查重检测-查重论文检测本科10-26

基于SWOT分析的泰安市旅游资源分析10-26

案例分析论文11-07

基于档案的社会作用管理论文10-13

职称论文检测系统10-26

基于霍尔传感器的机油压力检测装置10-26

基于因子分析的甘肃投资环境评价10-26

浅谈基于战略管理的我国证券监管分析10-26

基于领域的名词短语语义分析及其实现10-26