文档库 最新最全的文档下载
当前位置:文档库 › 点击热力图分析检测方法

点击热力图分析检测方法

技术交底书

本专利发明人:刘振华

技术交底书撰写人:刘振华

技术问题联系人:185********

Email:liuzhenhua@https://www.wendangku.net/doc/488769960.html,

发明名称:一种点击热力图自动异常检测方法

第一部分:

1.1、介绍技术背景(现有技术),描述已有技术的相关实现方案(目的在于对比体现出本发明的优点)

当前互联网环境下,互联网流量作弊已经成为广告购买公司关注的重点问题。互联网流量作弊,也长期侵害这互联网广告主的正当权益。在互联网反作弊的日益重要的今天,越来越多的流量反作弊方法得到了应用。其中,用户点击热力图是即是重要的流量异常检测工具之一。

然而,目前网站页面热力图的关注焦点,主要注重于不同分辨率和不同屏幕下点击热力图在统一尺度下的映射,依靠人工主观判断的方法,发现和识别热力图异常。人工识别效率和准确性是热力图异常识别无法解决的重要瓶颈,而当前尚无一种有效的热力图异常识别算法能够实现热力图异常流量的快速检测和直观展示。

1.2、结合第1.1部分的介绍以因果关系推理的方式推导出现有技术的缺点(客观评价)是什么?针对这些缺点,说明本发明的目的及能够达到的技术效果。(现有技术的缺点是针对于本发明的优点来说的,本发明不能解决的缺点不必写)

人工判断的缺陷是明显的:首先,人工判断效率极低。这主要表现在大量广告主热力图页面是大量的,判断过程需要依靠经验对热力图进行分解,查看和分析,整个过程过于依赖人工的熟练程度。而且,考虑到页面的数量和历史的时间的变化,人工发现异常效率是极低。其次,人工热力图异常的判断只能局限于有限的范围,如大量无按钮区域点击。然而大量按钮点击作弊,人工经验难以发现。

本方法是一套热力图异常自动识别算法,主要基于原始热力图点击数据,快速识别异常流量和正常流量。本方法主要的优点如下:1、自动识别算法突破人工异常流量检测的效率瓶颈。

2、利用程序化的方法,自动建立正常数据基准,能够准确锁定异常数。

3、只依赖点击位置数据和点击广告来源数据,计算速度快,数据准备简单。

第二部分:

2.1、本发明技术方案的详细阐述。

2.1.1 方案概述

本方案是一个基于用户点击的热力图异常自动识别方法,基于:1、不同广告来源用户点击行为相似;2、正常人在页面流量过程中,会发生无目的/无意识的点击行为。两个基本的假设,从用户的点击数据中自动计算正常流量基准,自动扫描和发现热力图异常点击数据。同时,将异常热力图数据在原始网页上进行绘制,方便用户快速查看和做出异常判断。

2.1.2 技术步骤

(1)采集原始点击数据并进行归一化

用户的点击数据可以通过前端javascript进行采集,同时对原始点击位置数据在不同屏幕幕下进行简单归一化,从而方便不同分辨率点击数据在同一尺度下展示。原始点击数据如下图所示:

图1 原始页面点击数据

如上图1所示,查看原始点击页面数据实际较难获取有用信息,通常还需要对数据进行一定的处理。

(2)转置、数据区间化与滤波处理

由于原始点击点坐标原点在页面左上角,且y轴向下增加,因此需要对原始数据进行转置。同时通过数据区间化是更好是显示点击数据分布特征,滤波则为了是区间分布数据变得更为平滑。原始点击数据经过区间和滤波处理后,结果如下:

图2 转置、数据区间化和滤波处理结果

如上图2,经过转置、数据区间化和滤波(常用滤波方法有高斯滤波、维纳滤波和均值滤波等)后,原始页面点击热力图基本形成。通过图片本身,很难判别那些区域是异常点击区域。

(3)点击密集区域抽取

对热力图进行异常检测,需要对密集点击区域进行切割。这一切割,主要是为了方便下一步热力图异常自动识别。

图3 密集点击与非密集点击区域

如上图3所示,、通过图像切割算法,能够迅速实现密集点击区域与非密集点击区域的快速切割。

(4)基准计算与异常检测

由于真实人类在浏览网页中,会在鼠标滚动,关注焦点转移过程中,进行随机的点击。随机点击的结果将会导致这些点击焦点是十分分散的。因此,可以认为非密集点击区域的大多为真人点击。因此,可以使用非密集点击区域作为真人点击量基准。另外,在实际的数据观察中,随机点击的数量相对于密集点击占比通常是较少。通常,非密集点击区域的点击量是相对较少的,因此制定相关基准并不会导致大量的点击数据丢失。

相对应的,点击聚集区域则是目标异常检测区域。异常检测的目标是为了找到异常作弊渠道,因此可以通过统计密集点击区域的渠道分布,识别异常流量渠道。很明显,如果是机器流量作弊,机器点击区域和真人点击区域会有显著的不同,通过这个特点,发现异常。不同渠道在非密集点击区域和各个不同密集点击区域渠道分布如下:

表1 聚集待检测区域与分散基准不同渠道占比

如上表1数据所示,在所有9个待检测区域中,聚集区域3,4,5渠道F流量占比均高于97%,而在基准分布中,渠道F的流量占比为0.87%,由此可以推断,聚集区域3,4,5是异常点击区域,主要点击为渠道F的机器作弊点击。同时,从不同点击区域与基准分布相关性,发现异常流量。

图4 不同聚集点击区域渠道分布与基准渠道分布相关系数

从上图4中,可以轻易发现聚集区域3,4,5是渠道F的作弊流量点击区域,通过这种方法,不仅能够快速发现异常流量,而且还能迅速标记作弊渠道以及作弊渠道作弊流量占比。

(5)异常流量底图标记

发现异常流量通常还需要人工的确认,因此需要将相关异常绘制到网页底图上。绘制底图的主要目的:1,方便迅速查看、迅速确认热力图异常点击。2、作为证据,方便广告主与渠道方进行商务交涉。3、热力图图片能够最大限度提高热力图异常确认效率。如上例中的异常热力图绘制到底图后的结果如下:

图5 热力图异常流量底图标记

注:由于商业原因,对底图进行了虚化处理

2.2、结合2.1部分的介绍用推理方式推导出本发明的优点

本方法在利用人类和机器作弊流量页面访问点击的不同,通过数据本身,制定页面访问点击流量基准占比。并通过点击聚集区域与基准间的差异,快速自动化识别异常流量。在速度和效率提高的同时,本方法还能发现一些人眼较难发现的按钮点击作弊。具体如下:

图6 热力图按钮点击作弊

如上图中的热力图按钮点击作弊,可以发现上述点击均在页面按钮上,在人工判定中,很难判定为异常流量。而本热力图异常流量算法,却发现了相关异常。异常热力图和正常热力图对比发现:

图7异常渠道热力图(右)和其它渠道热力图(左)对比

上图7中可以明显发现,异常渠道热力图中大量点击区域,其它渠道基本无点击。而不同渠道来源用户并无显著不同,因此基本不会出现一个渠道真实用户大量点击某个区域,而其它渠道基本不点击的现象。因此,可以判定上图中标记区域流量点击为异常,相关渠道大概率使用机器作弊。

终上所述,本发明提供了一种自动化的异常点击检测方法。该检测方法,不仅相对于人工提高的检测的效率,而且还提高了检测的准确性;该方法通过异常点击渠道热力图和正常渠道热力图的对比,使得热力图异常能够快速识别。

拓展部分:

3.1、本发明的关键点和欲保护点是什么?

本发明主要关键点和与保护点在于:

1、任何热力图异常检测中,利用点击数据聚集与非聚集的特点,构造正常(非机器作弊流量)渠道(包括且不限于广告渠道、广告来源、广告id、渠道id或其他任何广告或广告主标识维度指标)点击分布基准占比,以及通过该基准进行热力图点击异常判定的方法。

2、对热力图点击聚集区域进行切割,并分别对不同点击聚集区域流量进行异常判定的方法。

3、任何包含上文1,2,或结合上文1,2进行热力图异常点击相关识别、标记或计算的方法。

4、热力图异常检测中,对聚集点击区域进行异常标记,以及通过对异常渠道热力图与正常渠道热力图对比标记识别热力图异常的方法。

5、其它待补充

相关文档