文档库 最新最全的文档下载
当前位置:文档库 › 基于数据挖掘的企业竞争情报智能采集模型研究

基于数据挖掘的企业竞争情报智能采集模型研究

基于数据挖掘的企业竞争情报智能采集模型研究

唐 涛,张玉峰

(武汉大学信息管理学院,湖北武汉430072)

摘 要:通过比较分析国内外著名竞争情报软件,构建了一个基于数据挖掘的企业竞争情报智能

采集模型。模型融合数据挖掘的各种新技术,整合了情报采集流程,实现了信息收集、信息预处理、情报采集与知识获取的自动化和智能化。关键词:竞争情报;智能采集;数据挖掘中图分类号:G 350 文献标识码:A 文章编号:1007-7634(2007)10-1575-04

R esearch on I ntelligently G athering Model of Competitive

I ntelligence B ased on Data Mining

T ANG Tao ,ZH ANG Yu -feng

(School o f Information Management ,Wuhan Univer sity ,Wuhan 430072,China )

Abstract :Through com paring and analyzing fam ous com petitive intelligence s oftware ,the paper constructs and intelligently gathering m odel of com petitive intelligence based on data mining.The m odel combines new technologies of data ming ,integrates the process of intelligence gathering ,and realizes the automation and in 2telligence of in formation collecting ,information pretreating ,intelligence gathering and knowledge acquisition.K ey w ords :com petititve intelligence ;intelligently gathering ;data mining

收稿日期:2007-05-08

基金项目:国家自然科学基金资助基目(70573082)

作者简介:唐 涛(1982-),男,湖北仙桃人,博士研究生,从事计算机信息系统工程、知识管理研究;张玉峰(1946-),女,

河南人,教授,博士生导师,从事计算机信息系统工程、人工智能、知识管理与电子商务研究.

随着信息技术的发展,企业竞争情报工作者面对的现实是信息源纷繁芜杂,数据结构多种多样,数据量海量增长。

如何对这些数据和信息进行深层次的分析,并高效快捷地提供给用户有价值的情报呢?数据挖掘是一种从海量数据中提取有用信息和知识的新兴技术。所以,可行有效的方法是利用数据挖掘等先进的技术对这些海量数据和信息进行智能地采集、分析和处理。

本文融合数据挖掘的各种新技术来探索竞争情报的智能采集原理、方法与技术,构建了一个基于数据挖掘的企业竞争情报智能采集模型。

1 企业竞争情报采集系统分析

111 企业竞争情报采集系统的比较

竞争情报系统(C om petitive Intelligence System ,CIS )是以人的智能为主导、信息网络为手段、增

强企业竞争力为目标的竞争战略决策支持和咨询系统。它应为企业赢得竞争优势提供强有力的智力支持和情报保障

【1】

竞争情报软件在情报的采集方面,提供了各种强有力的工具来自动或者辅助竞争情报人员收集相

第25卷第10期2007年10月

情 报 科 学

V ol.25,N o.10

October ,2007

关信息,并对收集到的信息进行简单地分析处理。但这些软件尚不能满足企业的战略管理和市场竞争决策的需求,完善和创新新型的竞争情报采集理论和软件是十分迫切和重要的。为此,对国内外著名竞争情报软件进行综合比较分析,如表1所示【2】。

表1 国内外竞争情报软件的比较

企业名称软件名称软件功能

百度在线百度eCIS根据用户指定的信息源自动收集来自于Internet、数据库和文件系统的各

种信息,对竞争对手网站进行实时监控;可根据用户的设置对信息进行

自动分类、自动去重和建立信息间相互联系;可简单方便地生成情报简

报并高效地共享。

北京易地平方信息技术公司知识通竞争情报系统自动收集来自于Internet、数据库、E-mail、论坛和不同格式的文件的信

息;能有效通过文本挖掘技术进行文本自动分类、自动摘要和高熵信息

处理。

北京拓尔思信息技术有限公司TRS企业竞争情报系统自动收集来自于Internet、Intranet、数据库、企业E-mail、不同格式的电子

文件、纸质文件、网页图片和表格的信息;能进行文本自动分类、自动去

重、自动摘要和提取关键词;自动生成情报简报。

Cipher Systems K nowledge.W orks能够很好地从Internet、Intranet、E-mail、论坛中自动收集各种公开信息,

并对竞争对手网站进行监视跟踪;识别多种文件类型;可对信息进行自

动摘要,自动分类。

S trategy S oftware STRATEGY!较好地从各种信息源收集信息,还可利用语音—文本转换技术从电话中

实地收集信息;利用结构化工具将来自各种信息的“信息片断”组织成针

对不同部门需求的个性化的分析报告。

M agaputer Intelligence T extAnalyst基于桌面的小软件,对竞争情报工作流程支持有限。仅收集新闻和报告

等信息,但能很好地对非结构化文本进行文本挖掘、语义分析、导航和检

索。通过创建的语义网络对信息进行归类,并可用于多种语种。

ClearF orest ClearResearch Suite通过信息抽取引擎,从大量无结构的文本中动态识别出人、公司、事件,

以及相互关系;通过数据挖掘、神经网络技术进行关联分析,并以可视化

方式显示。采用专有的模式匹配方法搜索信息,对信息归类并以图形方

式显示数据之间的相互关系;可以搜索、发现和提取概念。

112 企业竞争情报采集系统的弊端

从以上的比较分析可以看出,各个软件在情报采集上各有优势,比如在信息收集阶段使用自动搜索技术,在情报分析阶段使用文本挖掘技术和自动摘要技术,在情报服务阶段使用自动推送技术等。但总体来看,单个软件的功能还远未达到真正的竞争情报采集的智能化。所以,由这些软件构成的竞争情报采集系统都存在这样或那样的不足,总结分析如下。

(1)没有全面地整合各种信息源。对于竞争情报采集系统来说,信息源是多种多样的,如何最大限度地整合各种信息源、提高信息的查全率,对获取全面的情报至关重要。而流行的各种竞争情报软件所支持的信息源良莠不齐,且信息源的整合力度还不够。

(2)信息收集结果质量差。这一点主要表现在信息收集的重复性、非相关性和表层化上。目前竞争情报采集系统大多是借助搜索引擎等检索工具对Internet上的信息进行自动收集和简单分析,其检索结果数量大且多为重复的、非相关的、浅层的,甚至是虚假的信息。

(3)情报采集过程缺乏协作性。情报采集过程缺乏协作性突出表现为信息收集与信息分析工作的分离,尤其缺乏自动化的分析功能。目前,借助搜索引擎自动收集的信息数量多且质量差,给信息的分析带来了极大的困难,信息的收集和分析由此而断裂。

(4)信息处理缺乏智能性。在信息处理方面,有的系统是把收集到的信息简单整理后,交给竞争情报人员进行人工定性分析和经验判断,存在较多不确定因素,结果的随机性较大。有的系统虽然采用一些简单的统计分析方法,但都是较浅层次地处理,没有将信息转化为准确的情报,更无法获取潜

6751情 报 科 学 25卷

在的情报。大多数系统虽然可以对结构化数据实现自动筛选和去重,但对半结构化、非结构化、异构分布式数据还不能进行有效地加工。

目前竞争情报采集工作中缺乏实用高效的智能采集机制、策略及方法。利用数据挖掘等新技术探索竞争情报智能采集模型与方法就是本文的宗旨。

2 基于数据挖掘的企业竞争情报智能采集模型

211 数据挖掘

数据挖掘(Data Mining ,DM )是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知的有用信息和知识的过程。它融合了信息管理、人工智能、机器学习、统计学等多个领域的理论和技术。

数据挖掘过程一般需要经历以下五个阶段:问题定义、数据提取、数据预处理、数据挖掘、知识

评估【3】

。目前,数据挖掘主要在数据库、数据仓库、lnternet 、文本等信息源中进行。

将数据挖掘应用于竞争情报的采集中,能自动分析数据库、数据仓库及互联网上的数据和信息,从中挖掘出潜在的情报知识,可以实现情报采集与知识发现的自动化和智能化。 212 智能采集框架

针对现在竞争情报系统普遍存在的突出问题,根据数据挖掘在信息分析和知识发现中的优势,本文综合应用数据库与数据仓库挖掘、Web 挖掘、联机分析处理(O LAP )及语义分析技术,构建了基于数据挖掘的竞争情报智能采集模型,如图1所示。

模型集成和整合了情报采集全过程的重要功能,实现信息收集、信息预处理、情报采集与知识获取的自动化和智能化。对于来自于企业内部的各种数据库、数据仓库的数据,利用数据库挖掘、数据仓库挖掘和O LAP 技术进行深加工;对于来自于企业外部的主要是Internet 上的信息,利用Web 挖掘和语义分析技术从中挖掘竞争环境、竞争对手和客户的信息。各种方法挖掘出来的情报知识,如模式、规则、报告、方案等,一方面以可视化的方式呈现给用户,另一方面存入情报知识库供以后使用

图1 基于数据挖掘的企业竞争情报智能采集模型 

智能采集模型的主要部件介绍如下。(1)信息源。信息源主要有两部分,企业内部信息资源和企业外部信息资源。内部信息资源主要从各种信息系统数据库、数据仓库和内部文本中获得,主要用于分析企业自身的竞争战略资源,如人力资源、财务状况、库存与物流情况等。外部信息资源则主要来源于行业组织网站、竞争对手网站、Internet 网页、网络数据库、E -mail 等,主要是了解、掌握、分析企业的竞争环境、竞争对手和客户的信息,并对企业可能面临的风险进行预警,如行业的宏观政策信息、竞争对手产量和市场占有率、客户需求与喜好等。

(2)信息收集。信息收集主要有三种方式:数据库检索、网络检索、文本检索。对于数据库和数据仓库,利用查询语言S Q L 、DMO L 构造出的程序自动收集数据。对于Internet 以上的网页信息,则由网络搜索引擎进行检索。对于文本信息,利用文本检索工具进行主题检索或内容检索。

(3)信息预处理。从各种数据库和数据仓库获取的数据中有“脏数据”———即数据有空缺、有噪声,不一致等。对于检索到的各种外部网页资源和文本资源,也存在冗余、过期、主题内容不相关等缺陷。都要进行预处理,使之满足数据挖掘的条件。预处理的方式主要有数据清理、数据集成、数据规约、信息摘要、信息分类等。

(4)智能采集。智能采集是将数据抽象成情报知识的重要步骤,对于支持多数据源多知识模式的情报智能采集模型,需要设计不同的数据挖掘引擎。本模型主要利用数据库挖掘引擎、数据仓库挖

7

75110期 基于数据挖掘的企业竞争情报智能采集模型研究

掘引擎、Web挖掘引擎、O LAP(Online Analytical Processing,联机分析处理)引擎、语义分析引擎来实现深层次的情报采集。

数据库是数据挖掘最丰富的数据源,数据库挖掘主要处理结构化的数据。

数据仓库是一个面向主题的、完整的、非易失的、时变的,用于支持决策管理的数据集合【4】。通常,数据仓库采用多维数据模型建模,因此,通过它来挖掘信息之间的联系是非常有效的。数据仓库挖掘主要是处理多维数据。

Web挖掘主要处理Internet以上的结构化和非结构化信息。它可以从Web页面的文本内容中挖掘深层次的情报知识,通过Web资源之间的超链接结构发现对象之间的关联模式,从Web日志等文件中挖掘用户的行为模式。

O LAP从数据仓库的综合式数据出发,提供面向分析的多维模型,并使用多维分析方法,从多个角度、多个侧面及多个层次对多维数据进行筛选、分析、汇总。O LAP技术是对数据仓库挖掘的有效支持。

语义分析是利用计算机对信息源的语义内容进行自动分析,进而实现信息的自动摘要、自动分类。其主要用于信息抽取、文本分类等。语义分析是语义知识挖掘的新技术,支持所有资源的内容挖掘。

213 主要的智能采集方法

(1)数据库和数据仓库挖掘。数据库和数据仓库挖掘的主要方法有概念描述、关联分析、分类和预测、聚类分析等,下面讨论概念描述和关联分析方法。

概念描述是指对数据集的概貌的描述,包括特征描述和比较描述两种。特征描述是从数据集中提取有关这些数据的总体特征,即一般性特征。而比较描述则是描述两个或更多的数据集之间的差异性,即特殊性【5】。具体步骤如下:①数据收集:通过查询,收集目标类和对比类数据;②属性和维的相关分析:识别属性和维的集合,若有多个维,则解析比较之并对其执行相关性度量;③删除属性:使用选定的相关分析度量删除不相关和弱相关的属性;④特征描述:用一组指定的属性概括阀值进行概括,产生特征描述;⑤比较描述:通过目标集和对比集的度量结果,产生比较描述。

关联分析是分析隐含在数据之间的相互依赖关

系,描述事物之间相互关联规律的过程。若两个或多个数据项的取值重复出现且概率很高,则它们就存在某种关联,可以建立起这些数据项的关联规则。

关联规则有多种分类方法,根据规则中所处理的值类型可以分为布尔关联规则和量化关联规则;根据规则中涉及的数据维可以分为单维关联规则和多维关联规则;根据规则集所涉及的抽象层可以分为单层关联规则和多层关联规则。利用Apriori算法可以挖掘出单维单层的布尔关联规则。MAQA (Mining Ass ociations am ong Quantitative Attributes)算法是一种量化关联规则挖掘算法,它将量化关联规则问题转化为布尔关联规则问题,然后利用已有的布尔关联规则算法得到有价值的规则。除此之外,其他的关联分析算法还有频繁模式树算法等【6】。

(2)O LAP。O LAP的目标是满足在多维数据环境下特定的查询和报表需求,它的技术核心是“维”这个概念。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品等不同角度来深入观察。这里的时间、地区和产品就是维,而这些维和所考察的度量指标构成的多维数组就是O LAP分析的基础,可形式化表示为(维1、维2……维n、度量指标),如(地区、时间、产品、销售额)。

多维分析是指对以多维形式组织起来的数据采取钻取、切片(Slice)、切块(Dice)、旋转(Piv ot)等各种动作,以求剖析数据,使用户能多角度、多侧面地观察,从而深入理解包含在数据中的信息。钻取是改变维的层次,变换分析粒度,包括向上钻取(R oll-up)和向下钻取(Drill-down)。R oll-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。旋转是变换维的方向,即在表格中重新安排维的放置【7】。

O LAP有多种实现方法,根据存储数据的方式不同可以分为RO LAP(Relational O LAP)、MO LAP (Multidimensional O LAP)和H O LAP(Hybrid O LAP)。RO LAP基于关系数据库,以关系型结构进行多维数据的表示、存储与分析。MO LAP以多维数据组织方式为核心,使用多维数组存储数据。多维数据在存储中将形成“立方体(Cube)”(下转第1592页)

实例验证的结果表明,该模型具有较高的可行性和可操作性。该模型的建立对国际贸易壁垒理论研究进一步发展具有很大的借鉴价值,对我国出口产品的T BT进行主动预警具有非常重要的意义。

参考文献

1 赵永宁.我国如何面对贸易技术性贸易壁垒[J].经济问题探索,2004,(7):63-68.

2 王兆华,雷家萧.基于国家经济安全的技术性贸易壁垒影响分析与对策研究[J].科学与科学技术管理,2004,(5): 35-41.

3 P owell M.J D.Radial basisis functions for multivarialte interpo2 lation:a review in a lg orithms for the approximation of functions and data[J].Mas on J C,C ox M G eds.Ox ford:C larendonP ress,1987,3(12):106-122.

4 Hartman E.J.K eeler.D.K owalski https://www.wendangku.net/doc/056604096.html,yered neural netw orks

with G uassion hidden units as universal approximations[J].Neu2 ral C om put,1990,2(2):10-215.

5 Park J.S andberg J.W.Universal approximation using radial basis functions netw ork[J].Neural C om put,1991,3(24):6-257.

6 P oggio T.G irosi https://www.wendangku.net/doc/056604096.html,w orks for approximation and learning[J].

Proceedings of the IEEE,1990,78(9):1481-1497.

7 Sulin Pang,Y anming Wang,Y uanhuai Bai.Credit scoring m odel based on neural netw ork[J].The International C on ference on Machine Learning and Cybernetics,Beijing,China,2002,4(4): 1742-1746.

8 赵 群,保 睁.径向基函数神经网络的分类机理[J].通信学报,1996,17(2):86-93.

9 黄德双.一种新的径向基概率神经网络模型(I)[J].基本理论.计算机研究与发展,1998,35(2):118-121.

10 黄德双.一种新的径向基概率神经网络模型(11)[J].模型分析计算机研究与发展,1998,35(2):122-127.

(责任编辑:刘 莹)

(上接第1578页)

的结构,对“立方体”的旋转、切块、切片是MO2 LAP的主要技术。H O LAP表示基于混合数据组织的O LAP实现,如低层是关系型的,高层是多维矩阵型的。

(3)Web挖掘。Web挖掘的主要对象是Internet 上的信息,根据功能不同可以为三类:Web内容挖掘、Web结构挖掘和Web使用挖掘。

Web内容挖掘主要根据网页本身的内容资源,尤其是文本资源来挖掘,其中主要应用的是文本挖掘技术。Web结构挖掘是指对页面之间的超链接结构、页面内部结构和UR L中的目录路径结构进行挖掘,揭示蕴含在文档结构信息中的有用模式,例如,识别中心和权威网页。Web使用挖掘是对Web 日志文件进行挖掘,发现用户的访问模式、相似的或潜在的用户群体、频繁路径等知识。

3 结 语

实践证明,数据挖掘是一种自动化的信息分析与知识发现的方法和技术。本文通过比较分析国内外竞争情报软件的特点与弊端,构建了一个竞争情报智能采集模型。该模型将数据挖掘的各种新技术应用于竞争情报采集的全过程,充分发挥了数据挖掘技术在处理海量数据上的优势,实现信息收集、信息预处理、情报采集与知识获取的一体化、自动化和智能化。这种新理念、新方法与新技术的应用,将是提高竞争情报采集系统的智能性的有效途径,也必将成为竞争情报系统未来的发展方向。

参考文献

1 包昌火,谢新洲.企业竞争情报系统[M].北京:华夏出版社,2002:2.

2 吴 伟.国外典型竞争情报软件比较研究[J].情报学报, 2004,23(1):112-116.

3 刘晓红,单晓红.数据挖掘在竞争情报系统中的应用[J].

管理学报,2005,2(2):129-130.

4 W.H.Inm on.数据仓库(第三版)[M].北京:机械工业出版社,2003:21.

5 Jiawei Han,M icheline K amber.数据挖掘:概念与技术[M].

北京:机械工业出版社,2001:119.

6 邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003:99-100.

7 苏新宁,杨建林,江念南,栗 湘.数据仓库和数据挖掘[M].北京:清华大学出版社,2006:60-63.

(责任编辑:刘 莹)

相关文档
相关文档 最新文档