ComputeColStats UDF中 近似算法的介绍(续)

  • 时间:
  • 浏览:1
  • 来源:神彩IOS下载_彩神IOS下载官方

在前一篇文章的最后提到,对于准确率的提升是后续需用做的事情之一。接下来看看对于提升准确率,还哪些事情都需用做。

不同的字段存储的数据不同,不同数据不可能 会发生唯一值上的差异。比如说对于主键,比如说对于纬度直,两者肯定在DistinctValue的分布上肯定是完正不同的。

上端一每项列举了你你这个 不可能 的RowCount和DistinctValue关系。第你你这个 类型是比较简单的,才能很准确的估算出DistinctValue值。而对于第二种和第你你这个 则要困难的多,从测试的结果来看是原来的。

让让我们 采样的前提是,采样算法能保证采样是随机的,每条数据被访问的几率是相同的。但实际上原来的前提是不发生的。这也是目前对第你你这个 的估算也不可能 发生较大差异的因为。不可能 按道理来说,好的反义词第你你这个 让让我们 也应该能很好的预估才对。目前的采样算法并有的是随机的,数据你你这个 分布对采样的结果影响极大。为了性能和实现起来简单,目前采样的算法是隔n条取1条的法律方式实现的,并有的是真正意义上的随机采样。

针对同一次估算过程,我尝试过不同的拟合回归算法,结果并那么有点硬的不同,间题并有的是在算法上,也不在数据你你这个 上。下面通过对发生较大误差的fuxi_avg_cpu来看下,不同的采样比例下的RowCount和DistinctValue关系的差异。









上端几张图对下对比,能看得出来在不同的采样比例下图形的情况会有很大的变化。差异那么大励志的话 我应该 比较准确的预估显然是不太现实的。



随着RowCount的增加,DistinctValue也在增加,但到了某个点后DistinctValue基本保持不变。



这是第一根斜率为1的直线。

对于你你这个 情况,目前的算法肯定都需用非常准确的估算出DistinctValue值。

目前看来DistinctValue估算的差异大每项因为是不可能 采样,我应该 提高准确率增加采样比例就都需用了。而具体回归的算法,则没那么重要了。

首先回顾下前一篇文章最后得到的结果,如下:



执行时间先忽略,只看准确率。对于上端8个字段,很多在sample为25(采样比例1/25)的情况下还是相当准确的,比如odps_task_type,start_time;而很多则发生一定差距,比如project_name,fuxi_ceil_mem等;还很多发生比较大的差距,比如odps_inst_id,fuxi_avg_cpu。同样的采样算法,同样的估计算法,对于不同的数据会得到截然不同的结果。你你这个 差异相信决大每项来自于数据你你这个 。

下面就从数据你你这个 来看下到底差异是何如出显的。

猜你喜欢

1500元左右的手机,好用。性价比高。推荐一下吧。谢谢

下载百度知道APP,抢鲜体验你对你这俩 回答的评价是?展开完整版你对你这俩 回答的评价是?展开完整版本回答由提问者推荐怪怪的推荐魅蓝e华为和小米。上官网去看看,总有一款一款

2020-03-22

赵老师,您好,不知道你们是怎么对这些表做读写比例分析的(不改源码/改源码)?

0人评论发布于2016-04-1520:36:192016-04-1520:31:18Ali_冷香zhenzhongpan0人评论1377人浏览0收藏来源:[直播]0人评论发布

2020-03-22

推荐个性价比高的智能手机,1000到3000的.最好亲自试验过。

华为nova4不错的,全网通6GB+128GB版本华为商城官网在售价为2499元,手机参数如下:1、屏幕:屏幕尺寸为6.4英寸,屏幕色彩为1670万色,分辨率为FHD+2310

2020-03-22

AI·重构企业客户服务能力

用于实时预测用户对物品偏好,支持企业定制推荐算法,支持A/BTest效果对比深度1挖掘企业与企业、企业与人物的关系,通很多 位交叉分析及智能算法,构建基于企业全息画像和企业关

2020-03-21

想买部手机,现在什么手机好

4、电池:电池容量为1000mAh(典型值),标配充电器支持4.5V/5A或5V/4.5A或5V/2A输出,兼容9V/2A快充,理论充电时间约1.5小时,续航更持久。3、性能:

2020-03-21