我国自20世纪80年代起,便在人口数据信息系统方面不断完善,不仅将个人姓名、年龄与住址融入其中,也涵盖其他如职业情况、社会保障等各项内容,数据处理工作取得较大进步
然而在人口数据信息逐渐增多的背景下,若单纯依托于以往的统计或查询等功能,很难使数据的实际价值发挥出来,造成资源利用率过低等情况
在此背景下,充分利用大数据时代下的数据挖掘技术对人口普查信息系统的完善具有十分重要的意义
一、数据挖掘的相关概述
对数据挖掘概念的理解,根据以往学者研究,主要将其界定在信息量极为庞大、类别较多、随机性较强、系统性较差的数据中,挖掘其中可为人类利用的价值信息的过程
其自身实质便为数据分析与处理技术,涉及许多如数据储存、数据库技术、可视化技术等学科内容,是发现知识的一个过程
该过程具体步骤主要体现在:第一,完成数据的预处理工作,主要指为将价值信息意外的噪声或噪声数据进行清除,确保数据内容不偏离挖掘主题;第二,集成工作,其可理解为从多个数据源中进行数据的收集并重新进行分类组合,为后续数据处理与分析提供便利;第三,转换过程,该过程在利用信息技术的基础上,将挖掘后的数据向常用数据存储形式进行转换,以便于数据资源的利用;第四,挖掘过程,通过结合一定的挖掘数据规律与智能方式,对数据库中潜在的知识进行挖掘,是知识发现过程中的主要环节;第五,评价与知识表示过程,其中评价主要指以相应评估标准为依据对挖掘后的数据信息进行筛选,而知识表示则需引入可视化技术使筛选后的知识内容显示出来
实际用于可行业领域中,数据挖掘在现有技术成果基础上,未来还需考虑到许多如挖掘算法是否可使自身可扩展性得以提高、是否具备时效性与多样性特点且能否将专家作用以及其他多项技术融入其中,这样才可为人口普查数据提供技术保障
二、人口普查数据运用数据挖掘的意义
(一)人口普查特点与数据挖掘应用的意义
所谓人口普查主要指在规定时间内通过统一方式对全国人口进行调查登记,将人口流动状况、分布情况、结构特征以及整体数量进行查清
从其特征上看主要表现在以下几点第一,普及性特征
实际普查过程中需在固定范围内对所有被调查对象进行普查,避免出现重复或遗漏调查的情况
第二,时间较为固定
现行国内外人口普查在时间上多结合不同人口特性、不同职业与行业等进行普查标准日的界定,要求在固定时间内完成普查工作
第三,个体特殊性
由于普查过程中涉及不同特性的人口,若同时收集并分析所有类型特性人口资料将超出标准时间,因此需利用抽样方式,选取其中样本代表所有人口
而将数据挖掘引入其中的意义具体可归纳为以下几点首先,是国家行政管理与政策制定的主要依据
人口普查数据中通过数据挖掘可将其中较为深层次的知识进行分析,如针对不同社会群体包括青少年、老年或新婚夫妇等,教育部门、卫生部门、计划生育部门以及房屋管理部门都需依据其中不同类型人口信息进行政策调整
最后,是工商企业发展的主要信息依据
以预估消费者需求为典型代表,要求数据信息必须详细准确且具备区域性特征,原因在于不同区域人口无论在年龄特征或职业收入等方面都存在较大的差异,要求做好普查数据的统计分析
(二)数据挖掘算法的选取
本文在选取数据挖掘算法过程中,主要结合以往学者提出的决策树方式
该方法主要由Hunt、J.Ross Quinlan等人提出,具体可细化为分类与回归两种决策树
以其中分类决策树为典型代表,能够结合数据类别完成目标变量分类过程,是人口普查数据应用的主要方式
相比其他方式,决策树方法应用中的优势主要体现在准确性较高且速度较快等,在数据处理过程中能够将重要字段进行显示并准确挖掘相关信息,而且计算效率极高且无需大量计算数据便可完成分类过程
但需注意,决策树方法应用中也存在一定不足之处,这也是现行数据挖掘应用面临的主要挑战如扩展性较差、噪声问题处理以及属性分类不准确等,因此需在未来研究中不断完善
三、人口普查中数据挖掘的具体应用
(一)人口普查数据预处理
对于人口普查数据无论选用哪种数据挖掘方式,都要求做好数据预处理工作,具体预处理环节主要包括:第一,归约过程,主要在完成数据聚集与选择属性子集的基础上对数值与维度进行规约;第二,清洗数据,由于理论分析中的数据存在许多冗余或噪声,其与实际数据存在一定差异,因此需做好清洗工作,主要集中在对噪声数据、缺失值以及不统一的数据处理方面;第三,集成,其是数据处理的关键环