“大数据营销”中的“大数据”如何采集? -世界杯365买球

网络营销 03-18 11:35:00

文/华智晟远(北京)管理咨询有限公司 商业模式咨询顾问 石泽杰


现代企业经营与市场营销是一个数据驱动的环境,无论论技术怎么更新迭代,大数据的地位都是不可替代的。那么,作为非大数据公司的常规企业,应该如何获取大数据从而进行大数据营销呢?很多企业对于大数据的获取一头雾水,其实,大数据的采集获取有很多种形式,专业人士有专业人士的采集方式,企业也有相对应的大数据采集方式,针对企业应用级别的大数据采集方式,主要有以下几种方式:


一、 线上交互数据采集。


通过容易传播的在线活动或者类公益互动等形式,在与用户产生交互的过程中实现数据的采集,这种方式的数据采集成本比较低,速度比较快,范围比较广,甚至可以在很短的时间内实现大范围的用户裂变,从而爆发式的收集数据,对于用户而言,既可以免费得到相应的互动娱乐,还可以对自我进行传播,对于企业而言,既可以采集用户的包括电话,年龄、性别的在内的基础数据,甚至可以采集包括用户地理位置,行为偏好,兴趣爱好甚至是消费偏好的深层数据,是一种非常适合企业的入门级数据采集方式。线上交互数据采集常见的方式主要包括公益类活动交互数据采集,测试类交互数据采集,投票类交互数据采集。


1、 公益类活动交互数据采集。是指设计策划一套大家都喜欢参与,并且参与成本比较低,参与方式比较简单的公益传播活动,在加载参加活动的同时会去传播活动,进而形成裂变,最终实现大范围的数据采集,最典型的案例就是2017年建军节期间,人民日报发起的“穿上军装活动” 只需上传一张照片,即可根据不同年代穿上军装,让很多当过兵和没当过兵的人体验了一身戎装的感觉,上线2天浏览量破2亿,短短几天内,这个活动迅速风靡全国,数据采集的数量和速度令人咋舌。


1、 测试类交互数据采集。通过趣味性的性格测试,人格测评、情商测验等类似的测试类互动形成用户间互动表达和相互传播,从而收集相应的数据,此类的互动,无论形式怎么改变,但本质上是解决了人们自我认知,自我表达和自我传播的需求,而且还可以根据时下热点竞相响应的改进,所以一直以来长盛不衰,屡试不爽,典型案例有很多,常见类型有如下几种:


2-1、追热点影视


2-2、人格,性格测试


2-3、情商,社交类测试


3、投票类交互数据采集,一个好的投票活动,可以极大地引起用户的兴趣和关注,并能快速调动用户进行主动传播,因为它需要去拉票,从而穿透用户的社交链,形成低成本的快速传播,以获取更多的数据。


二、浏览器页面采集。


主要是收集网页页面的浏览日志(pv/uv等)和交互日志数据。


通过在页面上植入相应的数据采集代码来进行数据采集,既可以在页面功能开发过程中手动写入,也可以在项目运行的时候,由服务器在相应页面请求的时候动态的植入。在采集到数据之后,既可以立即汇集到数据中心,也可以简单汇聚之后,延迟发送到数据中心,具体策略根据不同的需求场景来决定。


页面日志数据收集上来之后,需要进行一定的清晰和预处理,比如清洗假流量数据、识别攻击、数据的正常补全、无效数据的剔除、数据格式化、数据隔离等,最终形成有效数据。


三、客户端日志采集。


是指通过自有的app客户端进行数据采集,在项目开发过程中写入数据统计的代码,用于app客户端的数据采集。


app端数据的采集具有高度的业务特征,自定义要求很高,除应用环境的一些基本数据以外,更多的是从按用户行为来采集数据,例如点击,打开,登录,操作流程等。


app客户端日志数据采集比较有优势的地方在于可以和用户id绑定,这样的话,所有的数据都和唯一的id相互关联,这样就能更精准的获取用户行为数据和分析数据,另外很重要的一条原则就是 “标准化”、“规范化”,只有采集的方式标准化、规范化,才能最大限度的减少收集成本,提高日志收集效率、更高效的实现接下来的统计计算。


四、数据库同步数据采集


是指直接将数据库进行交互同步,进而实现数据采集,这种方式的优势是数据来源大而全,根据同步的方式 可以分为:


  • 直接数据源同步
  • 生成数据文件同步
  • 数据库日志同步

直接数据源同步:是指直接的连接业务数据库,通过规范的接口去读取目标数据库的数据。


生成数据文件同步:是指从数据源系统现生成数据文件,然后通过文件系统同步到目标数据库里。


这种方式适合数据源比较分散的场景,在数据文件传输前后必须做校验,同时还需要适当进行文件的压缩和加密,以提高效率、保障安全。


数据库日志同步:是指基于源数据库的日志文件进行同步。大部分数据库都支持生成数据日志文件,并且支持用数据日志文件来恢复数据。因此可以使用这个数据日志文件来进行增量同步。 这种方式对系统性能影响较小,同步效率也较高。


五、爬虫采集


是指通过网络爬虫的方式在网站上获取数据信息,通过爬虫采集的方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储,同时支持图片、音频、视频等文件或附件的采集。大数据时代,网络爬虫更是从互联网上采集数据的有利工具。目前已知的各种网络爬虫工具已经达到上百个,常用的爬虫采集器有如下五种:


  • 火车采集器
  • 八爪鱼采集器
  • 神箭手采集器
  • 关关采集器
  • 后羿采集器

六、平台数据来源


目前有很多平台提供数据分析服务,企业根据自身情概况,可直接使用此类平台的数据结果,常见的数据分析平台如下:


6-1、百度指数,百度旗下以百度网民行为数据为基础的数据分享平台,支持查询需求图谱。


6-2、艾瑞指数,—包括移动app指数、pc web指数、影视指数、广告指数、移动设备指数五类指数查询工具。


6-3、阿里指数,反映淘宝平台市场动向的数据分析平台。


6-4、360大数据平台,支持地区最热新闻、中国人返乡热度、诈骗地图等信息的查询。


6-5、腾讯大数据,发布与腾讯息息相关的研究报告,常会出现一些比较有趣味性的专题。