大数据简介.docx
《大数据简介.docx》由会员分享,可在线阅读,更多相关《大数据简介.docx(8页珍藏版)》请在第壹文秘上搜索。
1、大数据通常定义为,超出了常用硬件环境和软件工具在可接受的时间内为其用户收集,管理和处理能量流的数据.大数据的“大”不仅体现在容量上,还体现在多样性,速度及复杂度等方面.大数据的威力体现在你所做的分析和所采取的行动上,而不是体现在大或者数据这两个方面.大数据通常由某类机器自动地生成,而且其格式通常并非用户友好的.默认的做法是先采集到所有能采集的数据,然后再考虑哪些是其中最重要的.大数据会改变分析专家所使用的分析策略和工具,但它不会从根本上改变分析的动机,以及从分析中可获取的价值.不少大数据源是半结构化的.半结构化的数据源有一定的逻辑,但是可能并不漂亮.大数据最大的风险是某些数据源可能涉及隐私纠纷
2、.大数据最令人激动的部份是,当它和其他数据结合以后所带来的业务价值.大数据和传统数据都是整体数据和分析策略的一部份.不要制定严格区分于传统数据策略的大数据策略.下面是我看大数据一互联网大规模数据挖掘与分布式处理一书第二章的总结。1 分布式文件系统:distributedfilesystem文件多副本存储,计算任务分多个,容错。文件非常大(TB),文件极少更新2 Map-reduce:a多个map任务,每一个任务输入是DFS的一个或者多个文件块。b主控制器从每一个map任务中采集一系列键值对creduce任务每次作用于一个键经典任务:统计多个文本中单词的频率。节点失效时要有相应的容错组织map-
3、reduce应用:矩阵向量乘法,关系代数运算(选择,投影,并交差,自然连接,分组聚合)map-reduce扩展:Pregel系统(递归失效解决方案)Hadoop:HDFS与map-reduce结合实现工作流系统:map-reduce普通化为支持任意无环函数集系统,每一个函数都可实例化为任意数目的任务,每一个任务在一部份数据上执行对应函数递归工作流:递归关系函数集,系统不保证节点失效,可在计算工作过程中设立检查点通信开消模型:map-reduce小任务开消简单,主要开消在于数据从创建到使用的开消。多路链接,星形连接。下面是我看大数据一互联网大规模数据挖掘与分布式处理一书第三章的总结。1 Jacc
4、ard相似度:交集大小/并集大小,可应用于文档相似度,购物习惯相似度计算2 Shingling:K-shingling文档中连续浮现的任意K个字符。3最小哈希:集合上的最小哈希函数是基于全局的罗列转换来定义。给定任意一个罗列转换,集合的最小哈希值为罗列转换次序下浮现的第一个集合元素。4最小哈希值相等的概率等于两个集合的JaCCard相似度。5最小哈希签名:选择多个罗列转换,在每一个罗列转换下计算集合的最小哈希值,这些最小哈希值序列构成集合的最小哈希签名。6高效最小哈希:选择随机哈希函数,利用该函数对集合中所有元素进行哈希操作,得到的最小值看成集合的最小哈希值7签名的局部敏感哈希:给定集合签名,
5、划分成条,仅仅计算至少有一个行条相等的集合对之间相似度,合理选择行条大小,消除不满足相似度阈值的大部份集合对之间的比较。8测度距离:大于等于0;对称;满足三角不等式9欧式距离JaCCard距离:LJaccard相似度余弦距离,编辑距离,海明距离10局部敏感哈希理论:对给定集合,集合中的函数可用于相似性检测时决定某个项是否要作为候选对进行后续比较。对这些函数给出约束参数:1距离小于限制值这些函数判定为候选对下界,2距离大于限制值判定为候选对上界。H字符串比较的高相似度检测:利用局部敏感哈希理论,限制字符串长度。大数据:数据流挖掘下面是我看大数据一互联网大规模数据挖掘与分布式处理一书第四章的总结。
6、1流数据模型:数据以某种速率达到处理引擎,该速率使得无法在当前内存存储数据。流处理一种策略是保留流的概要信息,使之足够回答数据的期望的查询。另一种是维持最近到达数据的滑动窗口。2流抽样:为创建某类查询创建的流样本。确定流中关键属性集合。对任一到达流的键值进行哈希处理,使用哈希值确定包含键值的全部元素会使抽样样本的一部份。3布隆过漉器:允许特定集合的流元素通过,大部份其他元素丢弃。使用一个大的位数组或者者多个哈希函数。集合元素哈希到桶,这些桶置为1。哈希检查流的某值是否属于某个集合。哈希值到的位置为1,则属于集合。4独立元素计数:估计流中浮现不同元素的次数。将元素哈希成整数,换成二进制数,最长O
7、序列的长度作为2的塞指数得到结果为估计值。也可多哈希值组合,取中位数。5流的矩:流的K阶矩是流中至少浮现一次的元素浮现次数的K次方之和6窗口内1数据估计:0/1二进制流窗口1分到多个桶,估计出1的数目。7有关1的数目的查询应答:最近k个元素1的个数,寻觅一个最早的桶B,至少包含一部分查询范围,估计值为B的一半和后来的桶的和。8指数衰减窗口:窗口想象成所有达到的元素,t个时间单位之前的元素赋予权重e(-ct),保留指数衰减窗口的概要。9指数衰减窗口下高频元素的获取:每一个项看成二进制位流构成,0表示非当前时间到达,1表示当前时间到达,找出二进制流的和不低于1/2的元素,新元素到达时,将当前记录得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 简介
第壹文秘所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。


重点工作绩效评估自评表.docx
