爱看书

第287章 衣裙(第1页)

天才一秒记住【爱看书】地址:https://www.aksss.org

分布式消息订阅分发也是一种常见的数据采集方式y其中ykaa就是一种具有代表性的产品kaa是由lked公司开发的一种高吞吐量的分布式发布订阅消息系统y用户通过kaa系统可以发布大量的消息y同时也能实时订阅消费消息kaa的架构包括以下组件x话题生产者服务代理消费者。

etl是英文extract-transfor-load的缩写y常用于数据仓库中的数据采集和预处理环节顾名思义yetl从原系统中抽取数据y并根据实际商务需求对数据进行转换y并把转换结果加载到目标数据存储中可以看出yetl既包含了数据采集环节y也包含了数据预处理环节kettle是一款国外开源的etl工具y使用java语言编写y可以在dowsluxunix上运行y数据抽取高效稳定。

网络数据采集是指通过网络爬虫或网站公开应用程序编程接口等方式从网站上获取数据信息该方法可以将非结构化数据从网页中抽取出来y将其存储为统一的本地数据文件y并以结构化的方式存储它支持图片音频视频等文件的采集y文件与正文可以自动关联网络数据采集的应用领域十分广泛y包括搜索引擎与垂直搜索平台搭建与运营y综合门户与行业门户地方门户专业门户网站数据支撑与流量运营y电子政务与电子商务平台的运营y知识管理与知识共享y企业竞争情报系统的运营ybi商业智能系统y信息咨询与信息增值y信息安全和信息监控等。

数据清洗的主要应用领域包括数据仓库与数据挖掘数据质量管理?1?数据仓库与数据挖掘数据清洗对于数据仓库与数据挖掘应用来说y是核心和基础y它是获取可靠有效数据的一个基本步骤数据仓库是为了支持决策分析的数据集合y在数据仓库领域y数据清洗一般是应用在几个数据库合并时或者多个数据源进行集成时例如y消除数据库中的重复记录数据挖掘是建立在数据仓库基础上的增值技术y在数据挖掘领域y经常会遇到挖掘出来的特征数据存在各种异常情况y如数据缺失数据值异常等对于这些情况y如果不加以处理y就会直接影响到最终挖掘模型的使用效果y甚至会使得创建模型任务失败因此y在数据挖掘过程中y数据清洗是第一步。

数据质量管理数据质量管理贯穿数据生命周期的全过程在数据生命周期中y可以通过数据质量管理的方法和手段y在数据生成使用消亡的过程里y及时发现有缺陷的数据y然后借助数据管理手段y将数据正确化和规范化y从而达到符合要求的数据质量标准总体而言y数据质量管理覆盖质量评估数据去噪数据监控数据探查数据清洗数据诊断等方面y而在这个过程中y数据清洗是决定数据质量好坏的重要因素。

数据清洗按照实现方式y可以分为手工清洗和自动清洗?1?手工清洗x手工清洗是通过人工方式对数据进行检查y发现数据中的错误这种方式比较简单y只要投入足够的人力物力财力y也能发现所有错误y但效率低下在大数据量的情况下y手工清洗数据几乎是不可能的?2?自动清洗x自动清洗是通过专门编写的计算机应用程序来进行数据清洗这种方法能解决某个特定的问题y但不够灵活y特别是在清理过程需要反复进行时?一般来说,数据清理一遍就达到要求的很少?y程序复杂y清理过程变化时工作量大而且y这种方法也没有充分利用目前数据库提供的强大的数据处理能力。

数据清洗主要是对缺失值重复值异常值和数据类型有误的数据进行处理y数据清洗的内容主要包括四点?1?缺失值处理由于调查编码和录入误差y数据中可能存在一些缺失值y需要给予适当的处理常用的处理方法有x估算整例删除变量删除和成对删除?2?异常值处理根据每个变量的合理取值范围和相互关系y检查数据是否合乎要求y发现超出正常范围逻辑上不合理或者相互矛盾的数据。

数据清洗主要是对缺失值重复值异常值和数据类型有误的数据进行处理y数据清洗的内容主要包括四点?3?数据类型转换数据类型往往会影响到后续的数据处理分析环节y因此y需要明确每个字段的数据类型y比如y来自a表的学号是字符型y而来自b表的字段是日期型y在数据清洗的时候就需要对二者的数据类型进行统一处理,!

?4?重复值处理重复值的存在会影响数据分析和挖掘结果的准确性y所以y在数据分析和建模之前需要进行数据重复性检验y如果存在重复值y还需要进行重复值的删除。

在进行数据清洗时y需要注意如下事项x?1?数据清洗时优先进行缺失值异常值和数据类型转换的操作y最后进行重复值的处理?2?在对缺失值异常值进行处理时y要根据业务的需求进行处理y这些处理并不是一成不变的y常见的填充包括x统计值填充?常用的统计值有均值中位数众数?前后值填充?一般使用在前后数据存在关联的情况下y比如数据是按照时间进行记录的?零值填充。

在进行数据清洗时y需要注意如下事项x?3?在数据清洗之前y最为重要的对数据表的查看y要了解表的结构和发现需要处理的值y这样才能将数据清洗彻底?4?数据量的大小也关系着数据的处理方式?5?在导入数据表后y一般需要将所有列一个个地进行清洗y来保证数据处理的彻底性y有些数据可能看起来是可以正常使用的y实际上在进行处理时可能会出现问题?比如某列数据在查看时看起来是数值类型y但是其实这列数据的类型却是字符串y这就会导致在进行数值操作时无法使用?。

数据处理常常涉及数据集成操作y即将来自多个数据源的数据y结合在一起形成一个统一的数据集合y以便为数据处理工作的顺利完成提供完整的数据基础在数据集成过程中y需要考虑解决以下几个问题x?1?模式集成问题?2?冗余问题?3?数据值冲突检测与消除问题。

常见的数据转换策略包括x?1?平滑处理帮助除去数据中的噪声y常用的方法包括分箱回归和聚类等?2?聚集处理对数据进行汇总操作例如y每天的数据经过汇总操作可以获得每月或每年的总额这一操作常用于构造数据立方体或对数据进行多粒度的分析?3?数据泛化处理用更抽象的概念来取代低层次的数据对象例如y街道属性可以泛化到更高层次的概念y如城市国家y再比如年龄属性可以映射到更高层次的概念y如青年中年和老年。

规范化处理将属性值按比例缩放y使之落入一个特定的区间y比如0~1常用的数据规范化方法包括-ax规范化z-sre规范化和小数定标规范化等?5?属性构造处理根据已有属性集构造新的属性y后续数据处理直接使用新增的属性例如y根据已知的质量和体积属性y计算出新的属性密度。

我怎么又困了。

:()离语

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

网游之暗影盗贼开天录苟在四合院捡漏酒神英雄联盟之重返S7!红楼天骄灵气复苏:签到终极修炼天赋农家弃女我的亮剑生涯全球灾变:我成了世界树天启之门邪医妖妃名动天下开局操作蝙蝠侠特种岁月之弹道无声洪荒:开局通天偷看我日记,自废圣位长生三千年我靠读书成圣人至尊剑皇重生末世:我囤百亿物资坐等末世江山美人志哑妻不怂,总裁宠上瘾垂钓之神不朽圣尊末日模拟器,我以剑道证超凡总裁爹地超给力