如果数据过于庞大的话,Google Analytics会采取“取样数据”来快速完成资料分析的工作,这样可以有效降低分析成本和效率,那么取样数据和精确数据有什么差别吗?取样数据会不会影响到对网站的分析?
Google Analytics的取样数据可能会对你的分析工作带来影响
Google Analytics的取样数据可以快速分析庞大的数据流,但取样数据的问题在于,你所得到的资料并不会是绝对精确,有极大的可能你所看到的取样资料,与没有被取样到的资料具备着完全不同的特征和结果。
如下图,从Google Analytics报表的右上方我们可以看到该报表是否有被取样(几乎所有的报表右上方都会有这个栏位),上面会显示“这份报表是以xx%的工作阶段来计算,只要这裡显示的不是以100%的工作阶段来计算,就代表你当下正在看的报表,是有取样数据的问题。
在网站分析上使用取样数据并不是一件有正面影响的事情,因为这代表你看到的资料并不精确,尤其当你要计算网站收益、广告成效这些重要指标时,取样数据更可能错误的影响你的决策。
Google Analytics的取样数据如何运作?
Google Analytics不停收集资料的过程中,会先将资料整理、运算好,并且预先储存到资料库里,当你使用预设报表时,Google Analytics因为已经把这些资料准备好,所以你一点报表就能够立即跑出数据来。
为了加快给你提供资料的速度,Google Analytics就会取样部分的资料来运算你的需求,这一切都是为了能够更快的呈现出报表。
什么时候Google Analytics可能会使用取样数据?
当资料太过庞大,或是你提出定制化的资料需求时,Google Analytics会先检查这些资料条件是否需要取样,如果Google Analytics判定需要,它会为了加快给你数据报表的时间,采用取样数据,这些特定状况如下:
·在指定日期范围中,资源层级的工作阶段量超过 500,000个。
·你在预设的报表内使用了定制化化的进阶区隔、或次要维度。
·在自订报表内的筛选器使用了定制化化的筛选条件。
·在多管道程序报表中,你所选取的指定日期范围中,超过一百万个转换。
·在行为流程报表中,你所选取的指定日期范围中,超过十万个工作阶段。
如何解决Google Analytics的取样数据问题?
取样数据并不能完整地被解决,这是Google Analytics的缺陷之一,但你可以用以下的方式来稍微改善取样数据的问题:
1.调整取样数据的设定
在报表的右上方,如果你看到数据并不是来自于100%,你可以选择“精准度度更高"来降低取样的状况,假设你原先设定为“回应速度更快",并且取样为1%的工作阶段,在你更改为精准度更高之后,Google Analytics会根据你的需求,花上更多时间运算,并把取样的比例调高到4%。基本上取样的比例越高,数据会越精准,若没有赶时间的话,我建议你都选取“精准度更高"来给Google Analytics多一点时间运算、并观察取样比例较高的数据资料。
2. 缩短观察的时间比例
有时候取样数据会发生在你所选取的时间范围太长,假设你一次选取了一整年的数据资料来观察,因资料过于庞大,Google Analytics为了加快运算,会用取样数据,我建议你不妨把观察的时间范围缩短,来减少资料量、并取得更精准的数据。
3. 尽量使用预设报表
如果你的需求都能被预设报表满足的话,你可以尽量只使用预设报表来减少数据取样的发生状况。
无论如何,在使用Google Analytics时,你一定要注意取样的问题,尤其如果部门在计算KPI、ROI、各个流量管道成效时,取样更有可能伤害到你的指标计算,如果你的网站流量很大,更会提高数据取样的机率,因此你一定要注意。