• 【央视快评】让传统文化焕发新时代风采 2019-08-22
  • 后高考时代 孩子们这样致青春 2019-08-12
  • 湖南高校:将十九大精神融入基础课教学建设 2019-08-12
  • 兰州大学“习近平新时代中国特色社会主义思想研究中心”成立 2019-08-10
  • 监察体制改革后 湘西半年72名公职人员主动交代问题 2019-08-10
  • 中方有力回击!美国多个行业喊痛:“加征关税就是对美国消费者征税” 2019-08-07
  • 工信部:鼓励婴幼儿配方乳企质量安全追溯体系建设 2019-08-06
  • 相思湖边包鱼粽 孝心满满全家欢 2019-07-24
  • 英伦绅士新打开方式 试驾捷豹XFL 3.0SC 2019-07-20
  • 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 当前位置 > CPDA数据分析师 > “数”业专攻 > 如何做到30分钟内完成对数十亿受众数据的分析

    天津快乐十分钟走势图:如何做到30分钟内完成对数十亿受众数据的分析

    浙江快乐彩和值走势图 www.pn-vs.com 来源:数据分析师 CPDA | 时间:2019-07-05 | 作者:admin

    智能营销云(Smart Marketing Cloud,以下简称SMC),是TalkingData推出的数字化营销平台。依托TalkingData 及合作伙伴所提供的强大数据支撑,提供了一套从人群构建、客群洞察,再到同步投放、客观监测的一体化解决方案,帮助企业构建完整的数字化营销闭环。

     

    SMC中汇集了多种来源的大量数据,不管是存储范围还是计算效率都受到极大挑战,那么我们在产品内如何实现快速对这些数据进行处理分析?

     

    受众分析需求及难点

    SMC服务多个行业的广告主和广告代理,帮助他们对目标受众人群进行分析、洞察和触达。但是由于SMC汇集了包括一方企业数据、二方媒体数据和TalkingData自有数据在内的多源数据,数据量非常大;此外,为了对受众人群进行全面、深入的画像,TalkingData基于人口属性、移动端行为偏好等建立了拥有六大类别、800多个标签的标签体系,维度非常多。这对数据的处理分析提出了巨大的挑战。

     

    在具体使用中,产品性能是企业非常重视的方面。为了提升SMC的性能,让用户能够快速、准确的实现目标受众洞察,我们从技术上对SMC的受众分析能力进行了三大方面的优化:

     

    使用技术原理及方案

    Bitmap计算

    在SMC中,由于数据量巨大,我们对所有广告主构建的受众人群均会使用RoaringBitmap进行存储。由于RoaringBitmap只能存储整型数据,而我们需要处理的数据量在大多数情况下高达数十亿条,故我们将RoaringBitmap进行扩展,使之支持长整型数据。

     

    原生RoaringBitmap只支持int类型,最大数据存储量为2147483647,由于TalkingData设备数据量约80亿,已远远超过RoaringBitmap的存储范围,所以需要使用长整型来扩展RoaringBitmap。

     

    如何做到30分钟内完成对数十亿受众数据的分析 - 如何做到30分钟内完成对数十亿受众数据的分析

     

    以 set(long)方法为例,寻址方法大概如下代码所示:

     

    public void set(long offset) {

    int index = (int) (offset / max());

    int value = (int) (offset % max());

    bitmaps.get(index).set(value);

    }

     

    扩展之后的RoaringBitmap,已经获得了比较好的存储和读取速度。但这还只是开始,随后还需要对这些人群数据进行多维度的分析和计算。

     

    RocksDB加速计算

    SMC的受众分析维度包含:人口属性维度、设备属性维度、商旅属性、App行为分析等。基于以上维度对某个广告受众人群包进行分析时,需要进行约10万次Bitmap的交并运算,此时系统CPU和I/O就成了瓶颈。于是我们采用RocksDB进行Bitmap的缓存,以减少I/O耗时。

     

    RocksDB依靠大量灵活的配置,使之能针对不同的生产环境进行调优,包括直接使用内存、使用Flash、使用硬盘或者HDFS。支持使用不同的压缩算法,并且有一套完整的工具供生产和调试使用。

     

    RocksDB优势如下:

    为需要存储TB级别数据到本地FLASH或者RAM的应用服务器设计

    针对存储在高速设备的中小键值进行优化——支持存储在flash或者直接存储在内存

    性能随CPU数量线性提升,对多核系统友好

     

    RocksDB支持snappy、zlib、bzip2 lz4和lz4_hc压缩算法。对不同层的数据可以配置不同的压缩算法。一般来说,90%的数据保存在Lmax层。一个典型的安装可能是L0-L2层不配置压缩算法,中间层用snappy压缩算法,而Lmax层采用zlib压缩。使用RocksDB后,I/O性能显著提升,原来需要3个小时以上才能计算完成的任务,现在缩短到1.5小时即可计算完毕。

     

    但这个时间仍然太长,让人无法忍受,于是我们想到对系统数据进行抽样,以加快运算速度。

     

    随机抽样算法

    随机抽样是最为常用的算法之一,它最大的特点是能够通过抽取、计算较小的数据样本量,来尽可能客观的推断数据总体特征。

     

    我们需要进行随机抽样且保持有序,当总设备量为n,需要随机挑选出m个设备,其中m < n。输出是[0 , n-1] 范围内m个随机整数的有序列表,不允许重复。从概率的角度说,我们希望得到没有重复的有序选择,其中每个选择出现的概率相等。简单来说就是从n个数中, 随机抽取m个数据,并保持有序。

     

    轮流判断n个数组成的列表中每个数的概率(m/n),每次判断后n=n-1,若当前被判断的数被选择,则m=m-1,否则 m 不变。

     

    如何做到30分钟内完成对数十亿受众数据的分析1 - 如何做到30分钟内完成对数十亿受众数据的分析

     

    实现方式:

     

    public static Set<Long> random(long n,int m){

    Set<Long> set = new TreeSet<Long>();

    long remaining = n-1;

    for (long i = 0; i<n ;i++){

    if (Math.random() * remaining < m){

    set.add(i);

    m -= 1;

    }

    remaining -= 1;

    }

    return set;

    }

     

    我们使用次方法从总设备量中随机抽取受众人群分析样本数据并加工成Bitmap。我们假设另此Bitmap为A,男性全量数据M,则计算X人群中的男性占比P的公式为:

     

    如何做到30分钟内完成对数十亿受众数据的分析2 - 如何做到30分钟内完成对数十亿受众数据的分析

     

    采用随机抽样方式获得的占比结果还是会有一定偏差。经对比50组随机构建的受众人群包,对性别占比进行分析,相对误差率均未超过8%,在可接受范围之内。

     

    如何做到30分钟内完成对数十亿受众数据的分析3 - 如何做到30分钟内完成对数十亿受众数据的分析

     

    经过随机抽样计算之后,Bitmap数据占用RocksDB存储显著减小,Bitmap计算效率显著提高,数十亿数据量的受众分析任务可在30分钟内计算完成。

     

    基于以上这些优化,智能营销云可以快速完成对广告受众的分析,让广告主在整个广告投放过程中及时了解自己的目标受众特点以及分布情况,从而指导广告主及时对广告投放受众群体进行调整。

     

    转自作者:TalkingData 陈海龙

  • 【央视快评】让传统文化焕发新时代风采 2019-08-22
  • 后高考时代 孩子们这样致青春 2019-08-12
  • 湖南高校:将十九大精神融入基础课教学建设 2019-08-12
  • 兰州大学“习近平新时代中国特色社会主义思想研究中心”成立 2019-08-10
  • 监察体制改革后 湘西半年72名公职人员主动交代问题 2019-08-10
  • 中方有力回击!美国多个行业喊痛:“加征关税就是对美国消费者征税” 2019-08-07
  • 工信部:鼓励婴幼儿配方乳企质量安全追溯体系建设 2019-08-06
  • 相思湖边包鱼粽 孝心满满全家欢 2019-07-24
  • 英伦绅士新打开方式 试驾捷豹XFL 3.0SC 2019-07-20
  • 发展改革委就创新和完善宏观调控等答问 2019-07-13
  • 深圳2018年将开行3趟援疆旅游扶贫专列 2019-07-01
  • 房地产就有国家和集体之土地不计价到计价,这笔是经济收入还是财产收入? 2019-07-01
  • Map Out Your Life in Chongqing 2019-06-28
  • 世界杯黄历:日本换帅对战黑马“小哥” 2019-06-27
  • 小区麻将馆 何时不扰民 2019-06-26
  • 混合过关三串一挂一场 福建11选5走势图彩经网 舟山飞鱼走势图 德甲足球直播 福彩每年销售金额 3d胆码王子三天计划 大乐透30期走势图带连线图 特区彩票论坛海南 新疆十一选五专家推号 中彩网首页官网预测 18选7开奖结果今天 泳坛夺金开奖时间 快乐扑克玩法 6真钱游戏平台 北京体彩36选7