当前位置：文档库 › 基于WEB日志的连续频繁路径挖掘算法-论文

基于WEB日志的连续频繁路径挖掘算法-论文

基于w e b日志的多元线性回归连续频繁路径挖掘算法

1 引言

we b站点的日志数据记录了用户浏览we b站点时的大量路径信息，对这些信息的分析有利于网站设计人员掌握用户的爱好和习惯，网站设计人员可以用来对网站的结构进行优化和页面重组．基于web日志，研究频繁浏览路径已成为web日志挖掘的热门课题．目前的挖掘算法主要集中在以下几个问题展开：1.采用什么值作为算法的最基本分析依据，有些算法利用浏览次数作为研究依据，求得的浏览路径不全面；有些算法虽考虑到了浏览时间、浏览次数及浏览内容的长度等因素，采用兴趣度作为算法基本要素，但兴趣度定义比较模糊，不能准确说明用户对网页感兴趣程度；2.采用何种存储结构表示web日志数据文件；有些算法基于矩阵实现挖掘，算法无法表现可重复浏览路径等等．首先考虑web 日志中浏览次数,浏览时间和浏览接收字节数等因素，采用线性回归的方式计算用户的浏览兴趣度，得到更全面的兴趣度．其次采用树存储日志中的重复、连续、回溯路径，即只需访问一次数据库，建立完整的浏览路径树．最后采用倒序单子树序列口求得频繁路径．

本文基于web日志提出一种新的频繁路径的挖掘算法．首先以线性回归方法求解兴趣度，其次将此兴趣度和页面名称作为最基本要素，建立的web浏览树，此浏览树可以完整地表现出w eb日志中连续、重复的浏览路径，最后在we b浏览树上进行分析挖掘频繁浏览路径。该算法经实验证明能更全面地反映用户兴趣所在，挖掘的频繁浏览路径准确、合理．

2 算法相关描述

2 .1 线性回归兴趣度

2 .1 .1 问题提出

对web日志中频繁路径的挖掘首先取决于兴趣度的大小，目前用户浏览兴趣度的求法大多采用兴趣度浏览时间*浏览次数／浏览字节数的方法，这样的兴趣度公式不确切、不全面，说明力不够．求得的浏览兴趣度值差异较大，不易发现其规律．由w e b日志，我们得知用户对网页感兴趣程度与浏览时间、浏览次数、浏览字节数有关,经实验计算分析，兴趣度与web日志中的三要素线性相关．

2 .1.2 解决方法

线性回归方法是一种数学优化技术，它通过最小化误差的平方和找到一组数据的最佳函数匹配．本文利用线性回归误差小，数据计算精度高的特点，计算的兴趣度值更符合实际,能为下一步建立浏览树提供更可信的数据．本文设定

浏览兴趣度为因变量y，浏览次数、浏览时间、浏览字节数分别为自变量，采用最小二乘法理论得到多元线性回归方程数学模型为

由给定的数据库中一部分数据，求得线性回归系数

因而确立回归方程．建立了回归方程后，进行显著性检验，确认建立的回归模型是否很好地拟合了原始数据，即回归方程是否有效，利用残差分析，确定回归方程是否违反了假设理论．检验回归方程有意义后，利用回归方程进行兴趣度的预测．

本文中，所有自变量都可由w e b日志得到，但因变量兴趣度y不能直接得到,于是首要问题是得到固定的y值．兴趣度即用户对网页感兴趣的程度，兴趣度通常可以大致分为四种情况：特别感兴趣，一般感兴趣，偶尔感兴趣，不感兴趣．每种情况均表示一个范围，故不能将其直接定义为某一个具体的数值．我们可以将其按百分制的形式欲以离散化赋值(由实验计算设定经验值) ：定义用户最感兴趣的页面的兴趣度为100 ，其他类兴趣度的取值范围分别为80以上，4 0 ～8 0 ，2 0 —40 ，10 一20.在线性回归方程中，兴趣度值主观设定为每个兴趣度类别的中间值效果较好．利用

LINEST函数计算求得线性回归方程．验证有效后,将web日志数据代入线性回归方程，完成每个浏览页面的浏览兴趣度的预测和计算．

2 .2 web浏览树

本文中web浏览树完整记录了web日志的浏览路径信息，树中的每一个结点都是一个浏览页面，每个结点都包括页面内容和页面浏览兴趣度，树中的每棵子树都是沿着同一路径浏览的序列．树中的每一条路径上的结点都可以重复、连续出现,解决了以往路径单一的问题．web浏览树结构描述见图1

2 .

3 web浏览树的生成

建立web浏览树是整个算法的基础．web浏览树从根结点R开始，每添加一个结点时，沿不同路径先查找是否结点已在树中存在，没查找到相应结点，则在此路径中查找到的结点下添加一个新的儿子结点．对于查找到的结点,比较兴趣度,由不同需求可以生成三棵不同浏览树．若选取结点兴趣度最小的，可以生成严格浏览树；若选取结点兴趣度最大的,可以生成理想浏览树；若取兴趣度平均值，可以生成一般浏览树．这样生成的浏览树可以从不同角度反映用户浏览网页情况,使整个算法更有实用价值．

算法1 描述了一般浏览树的生成算法.以下实例均以一般浏览树为例．

算法1 web浏览树生成算法

输人：web日志转换成的数据表。

输出：we b浏览树．

算法具体描述：

假定w eb日志数据库中有n条记录，算法l需扫描一次数据库，生成web 浏览树，时间开销为0( n ) ．

文献[ 7 ] 建立访问树仅表现浏览页面在web日志记录中出现次数,不能准确反映用户的真实兴趣．本文综合web l og s中的浏览次数，浏览时间和接收字节数等信息增加了一个兴趣度属性,使用户可以在生成浏览树的同时，就可以一目了然该页面的兴趣度值，可视性好．也为下一步挖掘全面的、合理的频繁路径

奠定基础．

例1. 部分浏览记录如表1所示．

生成的一般web浏览树如图2所示．

2 .4 倒序单子树序列表生成

本文频繁路径的挖掘算法不以整个浏览树为分析依据，而是将浏览树中的每一棵子树转化为倒序单子树．即从浏览树的叶子结点出发，倒序产生从叶子到根的不同子树单序列．本算法中不用浏览次数作为分析频繁路径的依据，故不用生成Ta b邻接表,简化了算法,缩短算法时间．

例2 .生成图2所示的we b浏览树的倒序单子树序列，如图3所示．

2 .5 RT树生成

在浏览页面的过程中，每一条浏览路径中的每个页面的兴趣度会随着页面的不断重复、回溯而发生变化，在倒序单子树序列的基础上形成RT树，重新确定了单子树上每个结点的兴趣度值．RT树综合每个单子树序列，分别生成以每个结点为根的子树．

算法2 .RT树生成算法

输人：倒序单子树序列

输出：RT树

算法具体描述：

生成的RT树是判断频繁路径的直接依据，RT树上结点的兴趣度为最终的兴趣度，根据给定的兴趣度闽值，确定最后的频繁路径．假定倒序单子树序列个数为m，浏览的页面个数为，算法2的时间开销为O( m * n )．

本文在算法上进行了改进，生成的RT树是根据兴趣度生成的，故不用计算浏览次数总和，没必要再合并R T树，因此简化了算法．

例3生成图3中每个结点的RT树( 以结点A为例) 。结点 A 的RT树如图4所示．

遍历图4的RT树，根据给定的兴趣度阈值，即可挖掘出所需要的频繁路径．( 设兴趣度阈值为5 0 ) ，以结点A为后缀的频繁路径即为( ACA) ，( C A) ．

3 算法实现

本文以某大学0 8年5月1日1 9点到20点8 0个用户I P 的web日志记录为原形，用CP U：I n t e l P e n t i u m p r o c e s s o r 1 .7 GHz内存：1.2 1 GB的笔记本在windows x p平台上用c#语言实现了本文的算法．

3. 1 兴趣度的计算过程

3 .1.1 确定因变量兴趣度y值

本文以大写字母映射页面名称，首先用EXCEL2003求得页面兴趣度.以页面的日志情况作为线性回归方程的原始参考数据．

首先，分类原始的日志记录，并汇总计算各页面记录中与兴趣度相关的浏览次数,浏览时间,接收字节数的的平均值．

平均值：A：c o u n t ：1.7 7 3 3 3 ；t i me:4 7 .5 6 8 8；s b s：2 9 .7 ．

其次，计算各页面所占平均值的比重，这样可以反映不同用户在相同页面的不同偏爱程度．部分页面的比重值见表 2 ．

再次，计算兴趣度．由实验计算设定经验值：浏览次数，浏览时间和接收字节三项比重值(表2 ) 都大于1 .5 ,用户对此页面特别感兴趣,兴趣度值设定为9 0；三项比重值中两个及两个以上大于1且小于1 .5 ，用户对页面一般感兴趣，兴趣度设定为60；三项比重值中两个及两个以上大于0.5且小于1,用户对页面偶尔感兴趣,兴趣度设定为3 0；三项值都小于0 .5 ,兴趣度设定为1 0．

3. 1 .2 线性回归方程的建立

由Excel中函数求得线性回归系数，结果如表3所示．

其第一行为所求的线性回归系数

求得的线性回归方程为

判定系数为0．8 4 5 9 6 9 ，自由度为7 1 ，回归平方和为2 7 4 7 0．3 1，残差平方和为5 0 0 1.6 9 3

3 .1 .3 检验线性方程线性是否显著

本文采用显著性检验一F检验来实现检验判定浏览次数、浏览时间和接收字节数与页面浏览兴趣度的相关性程度，进而准确判定线性模型准确与否．对应F分布表，我们可以确定在( a =0 ．0 5) 下，线性关系成立．( 过程略)

3.1.4 兴趣度误差说明( 图5 )

用于预测的估计兴趣度值均为离散化后各兴趣度范围的平均值，如估计值为6 0，预测值在40到8 0之间、估计值为3 0 ，预测值在 2 0到4 0之间等等都是正确的．图5是通过页面预测c页面得到的预测兴趣度与估计兴趣度的误差图．从中可以看出，只有少数估计值为9 0 的预测值与估计值不符．

即数据偏差较大的项均集中在兴趣度设定值为9 0，对该页面的感兴趣度是特别感兴趣时，这是由于对某一页面非常感兴趣的人数相对于其它类感兴趣的人数较少的缘故．当浏览时问接收字节数和浏览次数中某个数值较大时，也易出现数据偏差．

4 算法分析与比较

4.1 时间复杂性分析

本算法只需扫描一次数据库，假定数据库有I个序列，则建立w e b浏览树

的时间开销为O( L)，we b浏览树中以频繁1～项集为后缀的序列个数为0 ,在倒序单子树序列上建立n棵R T树，建立每棵RT树的时问开销为O( 0 )，则整个算法的时间开销为O( L) +n* O( θ) ．本文不用建立邻接表和合并R T树，显然会比文献[7 3 ]时间开销小．

4.2兴趣度比较

本文给定的兴趣度本身就能反映用户对页面的感兴趣程度，给定一个阈值求得的频繁路径可以反映出是不同兴趣程度类别中不同的用户的频繁路径，具有一定的代表性．

表5以一般浏览树为例，给定两个不同的兴趣度阈值，I为文献[ 6 ]的实验结果，此阈值不能代表用户对页面感兴趣程度．I 1为本文的实验结果，P；一40,此阈值40是用户对页面一般感兴趣的最低值，由此求得的频繁路径是对用户一般感兴趣和特别感兴趣的两类页面而言的，有利于有针对性地进行下一步分析页面，提高页面的利用率．

表4中每一条路径反映的是以该结点为后缀的频繁路径，例如表中算法I I 的结点A下的BA路径，实际上是以A 为后缀的由A到B的路径．基于本文的数据库，和于本文来说都是较低的阙值，由此得到的频繁路径应该

是普遍值，能反映最大众的路径情况．但显而易见，算法I得到的结果比较狭隘，不能将频繁路径全部、真实再现．

4．3 结果分析：在效率和准确性上的比较

本文不用生成邻接表，不用合并B T树，因而在算法结构上更细致，更准确地挖掘出不同用户群的连续、可回溯的频繁路径。由于页面结点，得到的路径比较纷繁，故在此仅以一个结点为例进行比较，这样得到的结果图比较清晰，容易说明问题,但不影响整个比较效果。

给定阈值设为P ，下图列举出结点D在较小的闽值下由文献[ 7 ]与本文一般浏览树下生成的频繁路径( 图 6 ,7 ) ．

图6和图7均在较小的阈值进行分析，旨在使得到的结果反映出两个文献中最易生成的路径．而本文综合考虑web日志中影响兴趣度的因素，在本表中虽只以一般浏览树为例，却真实地反映了感兴趣程度不同的用户浏览的频繁路径,得出的路径主要集中在A、B、C、D页面，体现出频繁性，实验结果细腻，有研究价值．

浏览we b页面的行为不具规律性偶然性大反映在web日志中即影响兴趣度的某一个因素值可能出现极端，本文采用线性回归的方式计算兴趣度，即使某一个因素值较大或较小，都不会直接影响最终结果．因此针对一般和特殊的web 日志,本文算法都可以适用;另外本文可产生三种不同的浏览树，由此三种浏览树不但可以很好地挖掘出大多数用户较大众的一般性兴趣及频繁路径，而且对于少数用户的极端兴趣度下的浏览路径也可同样进行充分分析，产生极低兴趣度和理想兴趣度下的频繁路径，完善了算法功能,扩展性能好．

本文采用窗体形式实现了算法的可视化，数据库的显示与否可以由用户根据需求自行设定，显示数据库，方便用户在操作过程中及时对应，及时检验．增强了算法的可操作性、可读性灵活性．

5 结束语

本文提出了一种基于web日志新的频繁路径的挖掘算法．算法首先用线性回归方式求解兴趣度，这是一种全新的尝试，线性回归的兴趣度的计算方法笔者将作进一步研究．然后由兴趣度作基本元素，根据不同需求可生成三种不同浏览树，不但从不同视角真实、全面地反映w e b日志中的用户兴趣，同时解决了连续、可重复的路径的挖掘问题．实验证明，本算法合理有效,可扩展性好．

频繁项集挖掘的Apriori改进算法研究

１０００－５８６２（２０１１）０５－０４９８－０５频繁项集挖掘的Ａｐｒｉｏｒｉ改进算法研究栗晓聪滕少华广东工业大学计算机学院，广东广州５１０００６摘要：针对Ａｐｒｉｏｒｉ算法的不足，提出了一种新的优化算法—ＩＡｐｒｉｏｒｉ．该算法应用散列技术优化产生频繁－２项集，优化连接操作减少连接判断的次数，通过对候选项集编码来减少扫描数据库的次数，优化逻辑“与”运算减少不必要的“与”操作次数，缩短生成频繁项集的时间．ＩＡｐｒｉｏｒｉ算法仅需３次扫描数据库．研究结果表明，该算法具有快速、直观、节省内存等优点．Ａｐｒｉｏｒｉ算法；频繁项集；候选项集；ＩＡｐｒｉｏｒｉ算法ＴＰ３１１Ａ２０１１－０７－１２广东省自然科学基金（０６０２１４８４，　９１５１００９００１０００００７）和广州市越秀区科技计划（２００７－ＧＸ－０２３）资助项目．滕少华（１９６２－），男，江西南昌人，教授，博士，主要从事协同工作、网络安全和数据挖掘方面的研究．

第５期

２０１１年

第５期

＠＠［１］王琳，滕少华，伍乃骐，等．基于协议分析的散列模式入侵检测方法［Ｊ］．计算机工程与设计，２００６，２７（１）：　５３－５５．＠＠［２］颜跃进，李舟军，陈火旺，等．基于ＦＰ－Ｔｒｅｅ有效挖掘最大频繁项集［Ｊ］．软件学报，２００５，１６（２）：　２１５－２２２．＠＠［３］郭宇红，童云海，唐世渭，等．基于ＦＰ－Ｔｒｅｅ的反向频繁项集挖掘［Ｊ］．软件学报，２００８，１９（２）：　３３８－３５０．＠＠［４］　Ｈａｎ　Ｊｉａｗｅｉ，　Ｐｅｉ　Ｊｉａｎ，　Ｙｉｎ　Ｙｉｗｅｎ，　ｅｔ　ａｌ．　Ｍｉｎｉｎｇ　ｆｒｅｑｕｅｎｔ　ｍａｔｔｅｒｎｓｗｉｔｈｏｕｔ　ｃａｎｄｉｄａｔｅ　ｇｅｎｅｒａｔｉｏｎ　［Ｊ］．　Ｄａｔａ　Ｍｉｎｎｉｎｇ　ａｎｄ　ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒ，　２００４，　８（１）：　５３－８７．＠＠［５］Ｊｉａｗｅｉ　Ｈａｎ，Ｍｉｃｈｅｌｉｎｅ　Ｋａｍｂｅｒ．数据挖掘概念与技术［Ｍ］．范明，孟小峰，译．北京：机械工业出版社，２００７：１６７－１６１．＠＠［６］　Ｗｕ　Ｘｉｎｇｄｏｎｇ，　Ｖｉｐｉｎ　Ｋｕｍａｒ，　Ｒｏｓｓ　Ｑｕｉｎｌａｎ　Ｊ．　Ｔｏｐ　１０　ａｌｇｏｒｉｔｈｍｓ　ｉｎ　ｄａｔａ　ｍｉｎｉｎｇ　［Ｊ］．　Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｙｓｔｅｍｓ，　２００８，１４（１）：　１－３７．＠＠［７］陈耿，朱玉全，杨鹤标，等．关联规则挖掘中若干关键技术的研究［Ｊ］．计算机研究与发展，２００５，４２（１０）：　１７８５－１７８９．＠＠［８］徐章艳，刘美玲，张师超，等．Ａｐｒｉｏｒｉ算法的三种优化方法［Ｊ］．计算机工程与应用，２００４，４０（３６）：　１９０－１９３．＠＠［９］傅慧，邹海．基于待与项集的频繁项集挖掘算法的研究［Ｊ］．计算机工程与设计，２００９，３０（１）：　１２９－１３１．＠＠［１０］徐健辉．生成频繁项集的逻辑“与”运算算法［Ｊ］．计算机应用，２００４，２４（１１）：　８８－９０．＠＠［１１］俞燕燕，李绍滋．基于散列的关联规则ＡｐｒｉｏｒｉＴｉｄ改进算法［Ｊ］．计算机工程，２００８，３４（５）：　６０－６２．＠＠［１２］柴华昕，王勇．Ａｐｒｉｏｒｉ挖掘频繁项集算法的改进［Ｊ］．计算机工程与应用，２００７，４３（２４）：　１５８－１６１．Ｔｈｅ　Ｒｅｓｅａｒｃｈ　ｏｎ　Ｉｍｐｒｏｖｅｍｅｎｔ　ｏｆ　Ａｐｒｉｏｒｉ　Ａｌｇｏｒｉｔｈｍ　Ｂａｓｅｄ　ｏｎＭｉｎｉｎｇ　Ｆｒｅｑｕｅｎｔ　Ｉｔｅｍｓｅｔｓ　ＬＩ　Ｘｉａｏ－ｃｏｎｇＴＥＮＧ　Ｓｈａｏ－ｈｕａ

一种高效频繁子图挖掘算法.2007,18(10)_2469-2480

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.wendangku.net/doc/5b10778276.html, Journal of Software , Vol.18, No.10, October 2007, pp.2469?2480 https://www.wendangku.net/doc/5b10778276.html, DOI: 10.1360/jos182469 Tel/Fax: +86-10-62562563 ? 2007 by Journal of Software . All rights reserved. 一种高效频繁子图挖掘算法 ? 李先通, 李建中+, 高宏 (哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001) An Efficient Frequent Subgraph Mining Algorithm LI Xian-Tong, LI Jiang-Zhong +, GAO Hong (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86415827, E-mail: lijzh@https://www.wendangku.net/doc/5b10778276.html,, https://www.wendangku.net/doc/5b10778276.html, Li XT, Li JZ, Gao H. An efficient frequent subgraph mining algorithm. Journal of Software , 2007,18(10): 2469?2480. https://www.wendangku.net/doc/5b10778276.html,/1000-9825/18/2469.htm Abstract : With the successful development of frequent item set and frequent sequence mining, the technology of data mining is natural to extend its way to solve the problem of structural pattern mining —Frequent subgraph mining. Frequent patterns are meaningful in many applications such as chemistry, biology, computer networks, and World-Wide Web. In this paper we propose a new algorithm GraphGen for mining frequent subgraphs. GraphGen reduces the mining complexity through the extension of frequent subtree. For the best algorithm before, the complexity is O (n 3·2n ), n is the number of frequent edges in a graph dataset. The complexity of GraphGen is ???? ?????n n O n log 25.2, which is improved )log (n n O ? times than the best one. Experiment results prove this theoretical analysis. Key words : frequent pattern mining; subgraph isomorphism; subtree isomorphism; frequent subgraph; spanning tree 摘要: 由于在频繁项集和频繁序列上取得的成功,数据挖掘技术正在着手解决结构化模式挖掘问题——频繁子图挖掘.诸如化学、生物学、计算机网络和WWW 等应用技术都需要挖掘此类模式.提出了一种频繁子图挖掘的新算法.该算法通过对频繁子树的扩展,避免了图挖掘过程中高代价的计算过程.目前最好的频繁子图挖掘算法的时间复杂性是O (n 3·2n ),其中,n 是图集中的频繁边数.提出的算法时间复杂性是???? ?????n n O n log 25.2,性能提高了)log (n n O ?倍. 实验结果也证实了这个理论结果. 关键词: 频繁模式挖掘;子图同构;子树同构;频繁子树;生成树中图法分类号: TP311 文献标识码: A ? Supported by the National Natural Science Foundation of China under Grant No.60473075 (国家自然科学基金); the Key Program National Natural Science Foundation of China under Grant No.60533110 (国家自然基金重点项目); the National Basic Research Program of China under Grant No.2006CB303000 (国家重点基础研究发展计划(973)); the Program for New Century Excellent Talents in University (NCET) under Grant No.NCET-05-0333 (国家教育部新世纪创新人才计划) Received 2006-09-08; Accepted 2006-11-14

《大数据时代下的数据挖掘》试题和答案与解析

《海量数据挖掘技术及工程实践》题目一、单选题（共80题） 1)( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法？ (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型：(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作：( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法： (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法？ (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级

流数据频繁模式挖掘算法汇总

频繁模式挖掘常用的概念：事务数据库：时间ID：项集(item set)：重要算法： 1、A priori 主要思想就是从大小1开始遍历可能频繁集k，当满足V所有集合子集都在之前计算过的频繁集k中，且出现次数满足频繁要求，则V为k+1频繁集这样做有如下好处：如果一个集合是频繁集，那么它的所有子集都是频繁集；如果一个集合不是频繁集，那么它的所有超集都不会是频繁集缺点就是要多次扫描事务数据库 2、F P-growth 可以用来识别包含某个元素的最大频繁集。 FP-growth算法通过构造FP-tree来实现，FP-tree由频繁项集表和前缀树构成。 FP-tree的构建需要扫描两遍数据库，（1）第一遍对所有元素技术并降序排序，然后将数据库中每个事务里的元素按照这个顺序重新排序

（2）按照项头表的顺序逐渐插入元素 ··· （3）FP-tree的挖掘得到了FP树和项头表以及节点链表，我们首先要从项头表的底部项依次向上挖掘。对于项头表对应于FP树的每一项，我们要找到它的条件模式基。所谓条件模式基是以我们要挖掘的节点作为叶子节点所对应的FP子树。得到这个FP子树，我们将子树中每个节点的的计数设置为叶子节点的计数，并删除计数低于支持度的节点。从这个条件模式基，我们就可以递归挖掘得到频繁项集了。（1）先从F挖掘通过它，我们很容易得到F的频繁2项集为{A:2,F:2}, {C:2,F:2}, {E:2,F:2}, {B:2,F:2}。递归合并二项集，得到频繁三项集为{A:2,C:2,F:2}，{A:2,E:2,F:2},...还有一些频繁三项集，就不写了。当然一直递归下去，最大的频繁项集为频繁5项集，为{A:2,C:2,E:2,B:2,F:2}

毕业论文选题的方法和途径文档2篇

毕业论文选题的方法和途径文档2篇Methods and ways of topic selection for graduation thes is 编订：JinTai College

毕业论文选题的方法和途径文档2篇前言：毕业论文是普通中等专业学校、高等专科学校、本科院校、高等教育自学考试本科及研究生学历专业教育学业的最后一个环节，为对本专业学生集中进行科学研究训练而要求学生在毕业前总结性独立作业、撰写的论文。本文档根据毕业论文内容要求和特点展开说明，具有实践指导意义，便于学习和使用，本文下载后内容可随意调整修改及打印。本文简要目录如下：【下载该文档后使用Word打开，按住键盘Ctrl键且鼠标单击目录内容即可跳转到对应篇章】 1、篇章1：毕业论文选题的方法和途径文档 2、篇章2：大学毕业论文选题的具体方法文档篇章1:毕业论文选题的方法和途径文档还在为写论文而发愁吗，下文是论文选题的方法和途径，希望可以帮助到大家! 论文选题的途径 1、选择你有浓厚兴趣,而且在某方面较有专长的课题. 2、在不了解和了解不详的领域中寻找课题.

3、要善于独辟蹊径,选择富有新意的课题. 4、选择能够找得到足够参考资料的课题. 5、征询导师和专家的意见. 6、善于利用图书馆; 图书馆的自动化,网络化为读者选题提供了便利条件. 学位论文学位论文是研究生从事科研工作取得的创造性成果或新的见解,作为申请授予相应学位时评审用的学术论文. 学位论文应是一篇（或一组）系统完整的论文,可以得到指导和帮助或在他人基础上继续研究完成,但应注明,不能照抄他人成果.论文学术观点应明确,逻辑严谨,文字通顺. 上海交大本科:工程设计类的毕业设计（论文）书写字数,正文的字数不得少于 1.5万字;研究类论文的毕业设计（论文）字数不得少于2万.硕士论文一般为30000字以上,博士论文为50000字以上学士论文学士论文是合格的本科毕业生撰写的论文.毕业论文应反映出作者能够准确地掌握大学阶段所学的专业基础知识,基本

频繁子图模式挖掘

数据挖掘与商务智能读书报告Using Association Rules for Product Assortment

英文标题：gSpan: Graph-Based Substructure Pattern Mining 中文标题：频繁子图模式挖掘文献来源：ICDM 2002 一、主要内容（2000～2500字）：（1）论文研究的问题概述数据挖掘技术及其算法是目前国际上数据库和信息决策领域最前沿的研究方向之一,本文就数据挖掘中基于图结构的gSpan挖掘算法及其应用进行了研究。本文研究了频繁字图挖掘在图数据集的新方法，提出了一种新的算法gSpan，它在没有候选集的情况下发现了频繁子结构。gSpan在图中建立了一种新的字典序，和各图形映射到一个唯一的最小DFS代码作为它的规范的标签。基于这种字典顺序，gSpan采用深度优先的搜索策略高效的挖掘频繁连通子图。研究表明，gSpan大大优于以前的算法。 gSpan算法是图挖掘邻域的一个算法，而作为子图挖掘算法，又是其他图挖掘算法的基础，所以gSpan算法在图挖掘算法中还是非常重要的。gSpan算法在挖掘频繁子图的时候，用了和FP-grown中相似的原理，就是模式增长方法，也用到了最小支持度计数作为一个过滤条件。图算法在程序上比其他的算法更加的抽象，在实现时更加需要空间想象能力。如果整个数据集图中可以容纳主存，gSpan可以直接应用，否则人们要首先执行基于图的数据投影仪，然后应用gSpan。gSpan是第一个在频繁子图挖掘中使用深度优先搜索的算法。本文介绍DFS字典序和最小DFS码这两种技术，它们形成一种新的规范的标识系统来支持DFS搜索。gSpan在一个步骤里结合了频繁子图的增长和检查，从而加速挖掘过程。（2）论文研究的理论意义及其应用前景频繁图挖掘是数据挖掘中一个非常广泛的应用。频繁图挖掘可以理解为从大量的图中挖掘出一些满足给定支持度的频繁图，同时算法需要保证这些频繁图不是重复的。gSpan是一个非常高效的算法，它利用dfs-code序列对搜索树进行编码，并且制定一系列比较规则，从而保证最后只得到序列“最小”的频繁图集合。由于大部分图挖掘算法都需要利用频繁子图,频繁子图挖掘逐渐成为了数据挖掘领域中的热点研究内容。目前,很多高效的频繁子图挖掘算法已经被提出。其中,gSpan算法是目前公认的最好的频繁子图挖掘算法。然而,在化合物数据集上,还可以利用化合物的特殊结构进一步优化gSpan算法的性能。文献利用了化合物分子结构的对称性和原子类型分布的不均衡

聚类、关联规则挖掘、图数据库

聚类一、聚类的定义聚类，属于一种非监督学习方法，它试图在无标签的数据集中发现其分布状况或模式。通常，我们认为同一聚类中的数据点比不同聚类的数据点具有更大的相似性。二、传统的聚类算法的分类 1、基于划分的聚类算法主要思想：基于划分的聚类算法通过构造一个迭代过程来优化目标函数，当优化到目标函数的最小值或极小值时，可以得到数据集的一些不相交的子集，通常认为此时得到的每个子集就是一个聚类。典型方法： k-means算法 FCM算法。 2、层次聚类算法主要思想：层次聚类方法使用一个距离矩阵作为输入，经过聚类后得到一个反映该数据集分布状况的聚类层次结构图。层次聚类算法通常分为两种：凝聚的层次聚类算法：它首先把每个数据点看作是一个聚类，然后以一种自底向上的方式通过不断地选择最近邻居聚类对的合并操作，最终可以构造出一棵代表着该数据集聚类结构的层次树。分类的层次聚类算法：它首先把所有的数据点看作是一个聚类，然后以一种以自顶向下的方式通过不断地选择最松散簇进行分裂操作，最终可以构造出一棵代表着该数据集聚类结构的层次树。典型方法： AGNES (AGglomerative NESting) BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) CURE (Clustering Using REpresentative) 3、基于密度的聚类算法主要思想：基于密度的聚类算法试图通过稀疏区域来划分高密度区域以发现明显的聚类和孤立点，主要用于空间型数据的聚类。典型方法： DBSCAN (Density-based Spatial Clustering of Application with Noise) OPTICS (Ordering Points to Identify the Clustering Structure) 4、基于网格的聚类算法主要思想：基于网格的聚类算法是一种基于网格的具有多分辨率的聚类方法。它首先将数据集的分布空间划分为若干个规则网格(如超矩形单元)或灵活的网格(如任意形状的多

论文的本质与实现路径

学术论文的本质与实现路径安徽省蚌埠市中级人民法院邰永林（2016年1月18日）为什么要讨论论文的本质，是因为我在参加全省法院学术论文评选时看到大家所犯的两个重要错误而有感而发。在我和禹会区法院李庆同志交流时，其很受启发，论文很有改观，获全国法院第二十七届学术研讨会三等奖，但还有问题。两个重要错误主要表现在以下方面：一是急于表达自己的观点，表达自己的东西，论证自己的东西，以致忽略了大师观点的叙述，也即我在《全国法院学术论文撰写技能培养与指导》一书中所常常强调的，必须与学者对话问题。也即没有把大师的观点叙述透，没有把学者研究的历程描述清楚。有人对此不屑一顾，认为，我的观点新，就OK。其实不是这样的，是对学术论文本质的一个误解。大师牛顿还承认，我们只不过站在前人肩膀上更进一步。如何体现站在前人肩膀上，就是在一篇论文中将大师研究观点逐一阐述。把学者研究状况研究清楚了，才能讲自己的。典型的如中国社会科学刊登的《公共政策执行的中国经验》一文，花大篇幅来叙述国内外大师对公共政策执行情况的研究，然后才讲自己的观点，以及与大师观点不同之处。二是不知道反思，或者仅

仅反思自己知道的一点东西。为什么，原因有很多，关键是对通说不清楚，对大师的观点不清楚，也即是第一个问题没讲清楚，很难对其进行反思。存在上述问题的根本原因是没有清楚学术论文的本质与任务。尽管没有学者专门研究学术论文的本质与任务，但结合个人实践，个人认为学术论文，特别是应用型学术论文，其的本质和主要任务有：第一，反思类。也即用实践新情况、新问题反思通说、反思上级单位制定的政策、反思上级解决问题的工作思路，或者是探究事物的本质。前者的例子俯首皆是，如每年一度的全国法院学术论文，无不是以实践来反思上级政策、反思上级解决问题的思路。典型的如一等奖论文《论“统一裁判尺度”在基层法院的实现路径——以基层法院审判委员会的微观运行为视角》、《透视撤诉率：行政诉讼中的法律失效——以法院∕法官的行动选择为视角》、《合同无效认定路径之反思与重构——以强制性规定区分为视角》等，均是以运行中存在的问题反思政策制定。第二，弥补类。即现存制定存在不足，需要制度填塞。典型的如一等奖论文《权利保护与漏洞填补：行政诉讼紧急审理程序的建构》、《对于完善刑事瑕疵证据补救制度的思考——以某中级法院普通刑事案件判决为样本》、《司法涅槃的重要场域：民事宣判程序的现状检讨及构建思考》等，这些

议论文写作思路清晰的策略

议论文写作思路清晰的策略《普通高中语文课程标准（实验）》规定书面表达要“思路清晰连贯，能围绕中心选取材料，合理安排结构”。由此可以看出，议论文写作中，思路清晰连贯是议论文表达的一个基本要求。而在议论文写作实践中，我们经常发现学生议论文写作条理不清晰，连贯不紧密，严重制约了议论文写作能力的提高。这就需要我们在议论文写作教学中有意识地引导学生，把握写作思路清晰的策略，以提高议论文表达的基本能力，提高学生的语文素养。一.开宗明义，亮出观点写文章犹如抽丝剥茧，找对了头儿，丝会源源而出，长抽不断；找不对头，则会时时梗阻，纠缠错乱。开头写好了，作文就会顺畅。清代文艺理论家李渔曾说：“开卷之初，当以奇句夺目，使人一见而惊，不忍弃去。”它告诉我们议论文开头要精彩亮丽，亮出观点，直接告诉读者我们要说什么，才对读者有磁石般的吸引力，让其觉得有可读性，收到夺人耳目的效果。要做到这一点，可从以下三方面着手。（一）开门见山直接入题唐代白居易强调“首句标其目”，主张好的开头要开宗明义。梁启超也规劝我们：“文章最要让人一望而知其宗旨之所在，才容易动人。”开门见山是一种节省文字、直入

主题的很好的方式。这种开头，可以旗帜鲜明地亮出观点，以统摄全篇，收到言简意赅的表达效果。如： 2012年江西高考优秀作文《知足常乐》的开头“春去秋来，花开花落，岁月就这样流逝，不留痕迹。有人喜欢伤春悲秋，有人喜欢享受当下，而我们应该做的是珍惜现在的一切，明白知足方能常乐”。这篇议论文开头就提出中心论点“知足方能常乐”，收到了开门见山，一目了然的效果。（二）运用题记展示主题题记一般语言优美，要么提示论点，要么富有哲理，能充分展示考生的才情。读者一读题记，便可以有先入为主的功效。它是一种靓丽文章、使思路清晰的很好的方式。如： 2011年云南高考优秀作文《诚信之心，利欲岂能熏》运用题记“鱼与熊掌不可得兼，舍鱼而取熊掌；生与道义不可得兼，舍生而取道义；利与诚信不可得兼，舍利而取诚信”开头。这个题记化用诗文，既展示了考生的才情，又提出了文章观点“诚信之心，利欲岂能熏”，让人在美的享受中明白文章的观点。（三）比兴开头导入话题议论文的开头，使用比兴手法，会收到引入自然巧妙，观点明确，又富有文采的一箭双雕的效果。如：

议论文写作规范议论文写作思路

议论文写作规范议论文写作思路议论文写作规范议论文主要是阐述观点、表达看法。议论文以抽象思维为主，抽象思维具有概括性、严密性。关于议论文的一般思路，常规的提法是：提出问题分析问题解决问题。但如何写出高水平的议论文来，却是一个很难说清说透的问题。议论文以抽象思维为主，主要以事理的论证达到以理服人的目的。例如：我追求坚韧的品格，它让我无畏征途中的坚难险阻；它让我在一次次挫折之后仍是不屈不挠；它让我的心灵在承受一次又一次的打击后却仍能为心的向往而努力奋斗。因为只有在拥有坚韧的品格之后，才能具有坚强的心理承受能力，而有了坚强的心理承受能力之后，我才能去正视失败，从失败中吸取经验教训，去争取下一次的成功，而不是在失败后一蹶不振，永远陷于失败的泥淖中再无翻身之地。这段文字是议论，因为作者在表述一种观点，尽管这种观点的表达比较粗糙，只是简单的阐明我怎样追求坚韧的品格。有时议论文中转述论据也需要记叙，但记叙文中的议论是为说理服务的，应该尽量简洁，能把论据交代清楚就可以，不能用太细致的叙述甚至描写冲淡说理。写议论文，要学会使用常见的论证方法------例证法、引证法、正反对比法、比喻论证法、因果论证法、引申论证法，重点

是例证法和反证法。写好一篇议论文，至少要采用两种或两种以上的论证方法。写议论文，要着眼于“议”。从高考评卷的实际情况来看，考生的失误在于“只叙不议”或“以叙代议”。现在流行一种“开头+故事+故事+结尾”的简单的结构模式，它的主要缺陷在于缺乏对故事的深入开掘，没有鞭辟入里的议论。议论文的审题构思。在准确把握话题内涵与外延的基础上，首先要考虑的是，我为什么要写这篇文章，即我这篇文章到底要针对现实生活中的什么现象。有的放失，在议论文的写作上体现得更为突出。比如以“我心有主”为题写一篇议论文，首先要考虑这篇文章的现实针对性。在此基础上考虑如何分析说理，如何让读者接受你的观点。比如，你是针对生活中很多人容易受广告的暗示与误导，从而失去对事物的科学与理性的判断这一现象，那么，你怎样分析说理呢？如果你是针对有些人在物欲大潮的影响容易迷失自我这一现象，你又如何分析说理呢？很明显，这两个分析说理的过程是有一定的区别的。议论文的写作流程。比较流行的思路是：引议联结。引就是引述，即将试题所给材料分析概括之后，引述在自己的文章中，一般是放在文章的开端，以使后文据此发议，成为引出议论的引子。这样做的好处是，扣题紧密，结构完善，充实篇幅，节省精力。议，首先要注意扣紧材料来发议论。联，即联系现实，举例子也可以，进行对比也行。结，即

数据挖掘实验三应用 Apriori 算法挖掘频繁项集

实验三、应用 Apriori 算法挖掘频繁项集学院计算机科学与软件学院 ?实验目的：（1）熟悉 VC++编程工具和 Apriori 频繁项集挖掘算法。（2）根据管理层的需求，确定数据挖掘的任务，明确数据挖掘的功能，也就是明确要挖掘什么。（3）由确定的数据挖掘任务，从实验一处理后的结果中，采用切块或切片等联机分析处理技术，选择出挖掘任务相关数据。（4）用 VC++编程工具编写 Apriori 算法的程序，对任务相关数据运行 Apriori 算法，挖掘出所有的频繁项集。 1.写出实验报告。 ?实验原理： 1 、Apriori 算法 Apriori 使用一种称作逐层搜索的迭代方法，k 项集用于探索（k+1）项集。首先，通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁 1 项集的集合。该集合记作 L 1 。然后，L 1 用于找频繁 2 项集的集合L 2 ，L 2 用于找 L 3 ，如此下去，直到不能再找到频繁 k 项集。找每个 L k 需要一次数据库全扫描。 2、提高频繁项集逐层产生的效率 Apriori 性质：频繁项集的所有非空子集也必须是频繁的。三、实验内容： 1、实验内容在给定的数据中提取统一购物篮购买的商品信息，由这些数据构成事务数据库 D，挖掘其中的频繁项集 L。挖掘频繁项集的算法描述如下： Apriori 算法：使用逐层迭代找出频繁项集输入：事务数据库 D；最小支持度阈值。输出：D 中的频繁项集 L。（1） L 1 = find_frequent_1-itemsets(D); // 挖掘频繁 1-项集，比较容易（2） for (k=2;L k-1 ≠Φ ;k++) { （3） C k = apriori_gen(L k-1 ,min_sup); // 调用 apriori_gen 方法生成候选频繁 k-项集分为两步：合并、减枝（4） for each transaction t ∈ D { // 扫描事务数据库 D （5） Ct = subset(C k ,t); （6） for each candidate c ∈ Ct （7） c.count++; // 统计候选频繁 k-项集的计数（8） } （9） L k ={c ∈ Ck|c.count≥min_sup} // 满足最小支持度的 k-项集即为频繁 k-项集

议论文写作方法详解

议论文写作方法详解一、知识讲解（一）议论文的概念：议论文是运用事实和道理论证某种观点和主张，或者反驳某种观点和主张的一种文章体裁。（二）议论文的要求： 1．论点：准确、鲜明、集中，使人一目了然，最好在文章的开头，用具体的一句话，用判断句式，将中心论点摆出来。可采用中心立意、反中心立意或变换角度立意，确立中心论点。（1）中心立意，就是以原材料中心为基础，顺着这个中心，提出自己的观点和主张。这个观点和主张是对原材料中心的具体化，是对原材料中心的进一步阐发和深入论证。例：齐宣王使人吹竽，必三百人。南郭处士请为王吹竽，宣王说之，廪食以数百人。宣王死，缗王立，好一一听之，处士逃。这则材料讽刺了南郭处士不会装会，不懂装懂，终被识破，最后落得个逃之夭夭的下场。我们可以在此基础上，联系实际，提出“干事业要有真才实学”“大锅饭’吃不得”等中心论点。这叫做中心立意法。（2）反中心立意法是以原材料的中心意思为对立面，提出作者自己与之相反的观点。例如就上面“滥竽充数”的材料，我们也可以称赞南郭处士“有自知之明”，知道自己并无真才实学，在客观环境变化，自己再也无法混下去的时候，机智地改变策略“夹起皮包走路”。这种“反中心立意”，只要言之成理，言之有据，不仅不会被视为“跑题”或偏离原材料，反而会因其思想独特，立意别致，敢于标新立异，受到赞扬。（3）变换角度立意，就是避开主要矛盾方面，改换方向来看待原材料，将原材料的非主要矛盾方面作为议论的主要对象。仍以上面“滥竽充数”的材料为例，我们可以以“齐宣王好大喜功，讲排场，成为南郭处士一类人得以生存的土壤”，或“乐队队员明知南郭处士‘滥竽充数’，却不检举不报告，听之任之，明哲保身但求无过，犯自由主义，为南郭处士假冒吹竽创造了客观条件”为论题，确立我们的中心论点。应该注意的是使用“变换角度立意”法，在中心论点确立之前，必须点明原材料的中心意思，并以“不说……(原材料的中心)，而说……(变换角度后的中心)”的形式，对自己的中心论点加以限制。这样就给你的立意上了“双保险”，就不再可能被视为“跑题”和“偏离材料中心”了。 2．论据：议论文的论据是用来证明论点能够成立的事实或道理的。（1）论据的基本形式有两种：事实论据和道理论据。事实论据是经过核实了的实例，包括典型事例、史实、数字等。道理论据是符合客观规律的道理，包括导师论断、格言、谚语、原理、定律和公式等。

研究生论文写作中的问题和对策建议

研究生论文写作中的问题和对策建议(2007-10-12 14:07:05)转载▼ 标签：研究生论文写作问题对策建议分类：学少问多现在，随着研究生数量的增加，在职研究生工学矛盾的突出，研究生论文写作也存在一些问题，这里仅就自己看到的问题，做简要归纳，同时提出一点肤浅的对策建议。第一，选题方面：选题决定论文的研究价值，选题的新颖性不够，即表现为缺乏前瞻性的眼光，不能发现和确定本学科和研究方向的具有前瞻性的问题，习惯于从现成的论文文献中寻找所谓的热门话题，指望前人的研究成果有比较现成的答案和结论，至少有比较充分的文献资料可供选择，因此论文选题缺乏新意。另外，有的选题缺乏论文命题的形式，不能从选题本身体会到论文的研究主旨和价值取向。对策：从有关学者的争议性观点中提取选题，进行比较、综合和超越；参与导师的课题研究，承担导师课题的子课题的研究；关注国内新闻舆论的热点话题，从中提升到论文命题；调整选题的研究角度，独辟蹊径，对已经热门的话题做适当的剪裁和调整，如从某个视角研究热门话题；从政界领导和两会代表的言论中发现可以成为论文的话题；关注国家立法动向，研究有关行政立法的相关话题等；关注国际学界和发达国家有关公共管理方面的研究动向和实践发展趋势；应当准确界定选题的研究主旨和价值取向，从选题中表达鲜明的研究内容。第二，研究方法和路径方面：研究方法比较局限在文献收集、归纳演绎、观点陈述和素材数据证明的路径上，有点类似规范研究，但又不够充分和准确，关于比较方法的运用、实证方法的运用明显不足，明显缺乏学术论文的基本研究方法论训练。对策：多阅读各种类型的学术论文，学习和体会研究方法；选读有关研究方法论的专著和论文，了解研究方法；参与调查研究，全程掌握有关实证研究的方法，形成相应的经验；学点逻辑学，掌握和运用形式逻辑的基本形式，如归纳推理和演绎推理；熟悉和掌握基本的研究方法路径如实证研究，规范研究，比较研究，实证研究的基本路径是建立研究假设，设计研究指标，收集数量资料，进行统计分析，形成数据结论，检验研究假设，其中，最为关键的是研究假设和实证调研，样本的规模和代表性是否适当，数据结构关系是否紧密，研究结论是否可以从定量分析中直接得出（不需要其他方面的材料佐证）；规范研究的基本路径是提出研究起点，构造基本概念范畴，进行逻辑推演和证明，其中关键的是基本概念的准确性和逻辑演绎的严密性和合理性；比较研究可以从时间纵向和空间横向的不同角度进行比较研究，研究路径是提出比较对象和问题，设定比较标准和比较方法，进行异同比较，形成比较的结论，其中关键问题是比较标准是否严密和适当，选择的比较对象在性质、范围和数量上是否具有可比性，比较的结论是否概括出比较对象的基本特征。第三，文献的收集、阅读、评析和提炼方面文献是论文的基础，文献综述部分反映作者对于本课题相关研究成果的了解程度和评析能力，在此发现的问题是，文献范围不够开阔，权威性的文献缺乏，文献资料陈旧，特别是相关数据资料明显过时（应当使用论文定稿近两年内的文献），对与论文观点和内容有关的政策法律等文献明显缺乏了解（如讲“政策民主化”不了解《政府信息公开条例》，讲“积极就业政策”不清楚《就业促进法》草案等），文献的阅读过程缺乏积极思考和辨析，习惯于摘抄现成的观点和数据，对于文献的归纳、整理、比较的工作不够，容易拘泥于文献的现成观点和数据，由此可能带来的结果是，阅读越多，负担就越重，独立和创新的见解就越少。对策：文献检索和收集应当注意权威性、全面性、代表性和新颖性；文献的来源应当尽可能多样化和广泛性，除了期刊网以外，有关公布和披露政策法律动向的官方网站，学者博客或者个人主页，国内高校或社科院的专业网站和网页，地方档案馆，国际互联网中检索国外专业学术网站和官方网站；文献阅读要有做笔记和札记的习惯，不要直接从文献

高考议论文的写作思路

中学生议论文的写作思路议论文写作是中学生作文的重要组成部分，也是中学语文教学的重头戏。在教学中我们发现：不少学生在平时已积累了不少作文材料，练笔文章也写了不少，但到了中考、高考时还是写不出文字通顺、条理清晰的议论文来。究其原因，除了文字基本功外，思路不对头是其主要症结所在。本文试图从理清思路方面来探讨加强和改进中学议论文的教学教法。一、从确定中心论点中理清思路确定中心论点的思路主要体现在动笔之前的构思和观点的确立。首先是动笔之前的构思。鲁迅先生写文章，即使是写一篇几百字的短文，也不是马上摊开纸就动笔。他总要先“打腹稿”，这就是构思过程。动笔写文章之前，怎样进行构思呢？我们知道，阅读是一个发现中心思想的过程。反过来可以发现，构思的中心环节是提炼文章的主题。而文章的主题不是主观臆想的，外加上去的，是通过把现实生活的材料所蕴涵着的思想意义去粗取精、去伪存真开掘出来的。如鲁迅的《祝福》，对于祥林嫂性格的广泛的社会性、历史的必然性及其悲剧深刻性的挖掘，就是一个寓意深刻的艺术构思的范例。构思的方法，是一个“消化”材料的过程。文章的构思首先是吃透题材内容，而题材内容又来自于生活素材。因此，构思首先是理解生活，没有活生生的材料，就无从构思。在文章构思过程中，随着对生活理解的深入，文章主题思想会逐步明确。然后根据主题的需要，对材料加以整理、选择，分出主次、真伪，进而深化主题。构思好比是设计文章的草图，我在教学实践中让学生采用编写提纲的方式来对文章进行构思。如命题《为“班门弄斧”叫好》的构思提纲： ①“班门弄斧”通常是贬义的，是“不自量力”的意思，为常人所否定。 ②确立观点：敢于在“班门”（权威）弄斧，突破常规思维，不为传统观念束缚，好！ ③正面论证：处女作的发表；普通人的发明创造；甚至于科学家的新发现，正是敢于在“班门”弄斧而又有所突破的结果。 ④反面论证：如果人人都不敢在“班门”弄斧，“班门”永远是至高无上的，“班门”终将消失；正如“长江后浪推前浪”，如果取消“后浪”，长江就成了一潭死水，最终摆脱不了干涸的命运。人类社会也是一样，没人“班门弄斧”，社会就不可能进步。 ⑤总结全文：有所发现，有所发明，敢于向“班门”弄斧应给予鼓励，这样才能与日俱新，跟上时代前进的步伐。

数据挖掘一些面试题总结

数据挖掘一些面试题总结（Data Mining）摘录一段企业面对海量数据应如何具体实施数据挖掘，使之转换成可行的结果/模型？首先进行数据的预处理，主要进行数据的清洗，数据清洗，处理空缺值，数据的集成，数据的变换和数据规约。请列举您使用过的各种数据仓库工具软件（包括建模工具，ETL工具，前端展现工具，OLAP Server、数据库、数据挖掘工具）和熟悉程度。 ETL工具：Ascential DataStage ，IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream 市场上的主流数据仓库存储层软件有：SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 请谈一下你对元数据管理在数据仓库中的运用的理解。元数据能支持系统对数据的管理和维护，如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中，元数据机制主要支持以下五类系统管理功能：（１）描述哪些数据在数据仓库中；（２）定义要进入数据仓库中的数据和从数据仓库中产生的数据；（３）记录根据业务事件发生而随之进行的数据抽取工作时间安排；（４）记录并检测系统数据一致性的要求和执行情况；（５）衡量数据质量。数据挖掘对聚类的数据要求是什么？（1）可伸缩性（2）处理不同类型属性的能力（3）发现任意形状的聚类（4）使输入参数的领域知识最小化（5）处理噪声数据的能力（6）对于输入顺序不敏感（7）高维性（8）基于约束的聚类（9）可解释性和可利用性简述Apriori算法的思想，谈谈该算法的应用领域并举例。思想：其发现关联规则分两步，第一是通过迭代，检索出数据源中所有烦琐项集，即支持度不低于用户设定的阀值的项即集，第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则，其中，第一步即挖掘出所有频繁项集是该算法的核心，也占整个算法工作量的大部分。在商务、金融、保险等领域皆有应用。在建筑陶瓷行业中的交叉销售应用，主要采用了Apriori 算法通过阅读该文挡，请同学们分析一下数据挖掘在电子商务领域的应用情况（请深入分析并给出实例，切忌泛泛而谈）？单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理

毕业论文开题报告技术路线4篇

毕业论文开题报告技术路线4篇 1.题目(题目中不要有字母、符号) 2.指明研究对象或研究范畴 3.指明研究内容(对研究对象的什么进行研究。每一个研究内容都要清楚详实)。要指明难点和前人尚没解决的问题。难点、难题是体现水平和前沿性的地方。 4.研究方法有哪些 5.要涉及的设备和仪器有哪些。在什么研究工作中要用到哪个要逐一说明，不要笼统大略。 6.整个题目所指工作具体实施的技术路线或研究方案。经费和进展如何。做一张研究内容的流程图，把各个内容之间的关系，尤其是逻辑关系表达清楚，就是如何实现你的研究思路的具体过程。技术路线是指你如何具体实施你的研究方法，以达到你的研究目的。技术路线应具体清楚，可逐项写，很多人采用列路线图的方式，不失是个好办法，但注意在一些特殊的工序或者关键的方法和技术手段上要描述清楚。最好以流程图的形式，一目了然技术路线是你研究思路的最直观体现，所以一定要清晰易懂研究思路的具体化，流程化画一个复杂而清晰的流程图具体实施过程中所采用的方法的流程图以图表的形式，箭头等将你的研究流程，简介的书写出来

做成树形图，按照研究流程来写，一般包括研究对象、方法、拟解决的问题就是你实验的步骤，具体每一步都要干什么。技术路线即是指你的研究的具体方法、采取的具体步骤、实验的设备即就是一个预估的行动方案技术路线是指采用的什么手段来实施你的研究! 技术路线，就是你在做课题时所采用的研究方法，技术手段、仪器的使用与搭配，是具体的方法和步骤，这些用来完成你所设立的研究课题，一般以流程图的形式来表述，这样表达直观，逻辑性强，让专家和同行看起来一目了然。一般技术路线，就是你研究方法，手段、试验方案。若大一点的要包含技术分析、技术分析、可行性分析，风险应对、环境保护评估、资金预算等内容。技术路线一般都是针对项目申请和学位论文，主要目的是介绍如何完成研究内容，实现研究目标。需要包括主要方法、评价指标和实验流程。技术路线就是你采用什么方法，理论，工具来解决你的问题。 1.针对以上6个方面的内容，都要搞清历史和现状。如，谁是第一人?谁是有功之人，在什么上有功?科学难点在哪儿?没解决的问题是什么?我能解决什么?关键问题是哪些? 2.开题报告是科研工作之始，“创新”要贯穿一切。要把注意力放在针对以上6个内容的“改进”、“发展”、“完善”和“填补空白”上。 3.开题报告的内容在以上6个内容的文字份量要均衡，避免出现讲“概论”多，讲自己工作安排少的情况。逻辑上要有层次。写的时候要有承上启下的提示。 4.要做好投影片。要反复修改投影片上的内容。编排要美观大方。要事先确定好每一个投影片投出时，同时要讲的话。