数据分析的前提就是数据的质量,一个好的数据质量才是数据分析可靠性的必要保障。今天就来讨论一下数据质量的分析:
数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接进行相关分析的数据。脏数据包括以下内容:
1、缺省值
2、异常值
3、不一致的值
4、重复数据以及含有特殊符号(如#、¥、*)的数据
第一点:缺失值分析
首先来看一下缺失值是指怎么产生的:
1、有些信息暂时无法获取,或者获取信息的代价太大
2、有些信息是被遗漏的,人为或者信息采集机器故障
3、属性值不存在,比如一个未婚者cqdgz的姓名、一个儿童的固定收入
缺失值的影响:
1、会丢失大量的有用信息
2、数据额挖掘模型锁表现出的不确定性更加显著,模型中蕴含的规律更加难以把握
3、包含空值的数据回事建模过程陷入混乱,导致不可靠输出
缺失值分析:
通过简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率
解决方法:
删除含有缺失值的记录、对可能值进行插补和不处理三种情况
第二点:异常值分析
异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值得存在是十分危险的,不加提出的把异常值包括进数据的计算分析过程中,对结果会产生不良影响
1、简单统计量分析
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用力啊判断这个变量是否超出了合理的范围
2、3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。
第三点:
一致性分析
数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。
不一致数据的产生主要发生在数据集成的过程中,这可能是被挖掘数据来源于不同的数据源比如说两张表格都存储了用户的电话号码,但在用户的电话号码发生改变是只更新了一张表格中的数据,那么这两张表就有了不一致的数据。
?
18088965