Web数据挖掘技术在电子商务中的应用论文

  电子商务的迅猛发展产生了海量的Web数据,从电子商务的大数据中发现潜在的、有用的知识和信息,是电子商务健康发展的需要。在电子商务中应用Web数据挖掘技术,可实现从电子商务的Web文档和Web活动中抽取出隐藏的有用模式。本文通过介绍Web数据挖掘技术,分析其在电子商务中的挖掘流程,对其在电子商务中的具体应用进行了探讨。

  0 引言

  我国电子商务交易量增长迅猛,电子商务平台和网站越来越多,数据呈现爆炸式增长。面对海量的Web数据,对企业而言,构建良好的客户管理关系,吸引新客户留住老客户,发现顾客潜在的购买兴趣等都成为了企业要关注的问题。

  对用户而言,如何从爆炸式的大数据中发现与自己相关的信息存在一定的难度。数据挖掘技术是一种从大量的、不完全的、有噪声的、随机的、模糊的数据中提取隐含在其中的人们事先不知道的,但又具有潜在价值的信息和知识的技术[1-2]。在电子商务中应用数据挖掘技术,从已有的信息数据中挖掘出潜在的有用的信息,已成为人们关注和研究的热点。

  1 Web数据挖掘

  Web数据挖掘是将传统的数据挖掘思想和技术应用于Web环境中,从Web文档集和Web活动中抽取出感兴趣、潜在的、有用的模式和知识的过程。Web数据挖掘根据Web信息不同可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。

  Web内容挖掘是从文档内容或其描述中直接抽取有用信息的过程,通过对文本内容的检索,获取和提炼知识和信息。

  用于Web内容挖掘的数据既有无结构的自由文本,也有网民留言、帖子、中文微博等半结构化的信息和来自于数据库的结构数据。所以Web内容挖掘需要从Web页面及后台数据库中开展挖掘任务,从大量元数据、文本、视频、音频等网络数据集中找到特定的信息[2]。

  Web结构挖掘是从Web组织结构和链接中推导知识,对页面进行分类、聚类,提高检索效率和找出权威页面,目的是发现页面的内部结构和文档间的结构,利用这些结构蕴含的信息帮助发现有用的知识和模式。

  超链接是Web页面的基本元素,经常可以利用超链接对Web结构进行挖掘。进行Web结构挖掘的常用算法有计算页面权威的PageRank算法、基于网页分析的HITS算法等。

  Web使用挖掘是从服务器端记录的用户访问日志或用户的浏览信息中获取数据,通过分析这些数据抽取出隐藏在这些数据后面的用户模式,进行预测性分析。通过Web使用挖掘,可以发现隐藏的与用户访问行为相关的规律,如频繁访问路径、相似用户群和相似的Web页面等[3]。

  2 面向电子商务的Web数据挖掘

  2.1 Web数据挖掘过程

  在电子商务环境下,Web数据挖掘过程要经历以下几步,它是不断反复修正的过程,直至得到准确的知识,如图1所示。

15336309825b695a065c77b771896.png

  ⑴ 确定挖掘任务,建立挖掘模型。构建模型的任务主要是将数据进行规格化处理,使用不同的算法、调整参数来优化挖掘任务,数据挖掘技术本身就是一个不断反复、不断迭代的过程,通过多次的循环构造才能得出更好的评估模型[2]。

  ⑵ 数据源:电子商务网站每天都会产生海量的交易数据和用户访问记录,收集的数据数量和质量都会影响到挖掘的结果。由于Web的结构大体为客户端→代理服务器→Web服务[4],所以Web的数据源主要有Web服务器上的Web日志文件、从代理服务器端收集信息及其从Web页面中提取数据等。

  ⑶ 数据预处理:数据预处理的目的是提高挖掘效率,提供有效的挖掘数据,使得结果更合理。Web文档的数据很多都是半结构或非结构化的,很难对采集的Web数据直接进行处理。采集的Web数据需根据挖掘主题选择相关的数据项,经过初步的筛选,缩小数据处理范围。另外,Web数据具有不完全性、冗余性和模糊性等特性,通过补全不完全项、去除冗余项、处理模糊项等,去掉无用、不合理的数据,最后生成标准的数据集。

  ⑷ 模式发现:根据挖掘需求选择合适的Web挖掘算法和工具,实现从数据集发现潜在的、有用的知识和模型。常用的Web挖掘算法有:路径分析用来发现Web站点中最经常被访问的路径;关联规则用于关联知识的发现,了解网页之间的关系;序列模式可以挖掘出交易集之间有时间序列关系的模式;运用分类和聚类算法对数据进行分组等Web挖掘。

  ⑸ 模式分析:对于发现的模式进行验证、解释、说明,获取对决策支持有用的信息。根据模式分析的反馈,如果没有得到合适的结果,重复上述步骤,重新挖掘知识,直至得到满意的结果。

  ⑹ 结果可视化:Web数据挖掘的意义不是获取庞大的数据信息,而是要将获取的知识或者模型采取用户可理解的方式展现给用户,这意味着要将分析结果可视化。数据可视化主要是