我们的世界充满了数据,但不是所有数据都可以使用的,那些不能使用的数据通常被称为“坏数据”,“坏数据”是指那些缺少重要信息、未正确输入、格式错误或者不准确的数据。
一些不良数据需要专家或者程序员来解决,但是有些不良数据可以本人自己来处理,那么自己应该怎么处理呢?以下是修复“坏数据”的5种简单方法。
一、数据采用PDF格式
大量数据,特别是政府数据,只能以PDF格式提供。如果PDF中有真实的文本数据,有几个很好的方法来提取数据。
解决方案:使用好用又免费的工具——Tabula。或者,如果您有Adobe Creative Cloud,您还可以访问Acrobat Pro,它具有将PDF表格导出到Excel的出色功能。这两个方案都可以从PDF中提取大多数的表格数据。
二、数据划分太细
这种情况与数据太粗糙相反, 解决方案:可以使用Excel或Google文档的数据透视表功能,通过使用SQL数据库或通过编写自定义代码来汇总数据。 数据透视表是每个商务人员都应该学习的一个神话般的工具,不过也有它的局限性。
三、人为错误——人工输入和手动编辑
手动输入是一个很常见的问题,没有比手动输入更坏的方法来搞砸数据了。
解决方案:解决手动编辑的问题是,您要确保您的数据具有详细的记录,缺乏数据操作记录不是一个好的现象,因为有人可能已经破坏了数据。
四、误差未知或过大
很多时候,误差是允许的,因为调查方法的不够科学,如果没有计算误差,无法知道结果的准确性,但这个误差是不大的,误差非常大的数据,比如人口普查数据。
解决方案:通常情况下,只要您能获得调查数据,都需要要求对方计算误差。如果源数据不能给出,那这些数据最好不要用于分析那些重大的项目。
五、时间帧或参考帧被操纵
可能有人会无意识地或故意地在原始数据的基础上筛选特定时间段的数据来歪曲事实。
解决方案:如果您的数据涵盖有限的时间范围,请尝试避免在数据的第一个时间段开始计算。如果您抽取数据的一部分(几年、几个月、几天)进行分析,那么您需要确保您没有将这些数据进行比较,因为这种比较会通过另外一个数据点使之无效。