大数据概念-白红宇

大数据概念

阅读量：520 次

发布时间：2019-03-07

本文共 966 字，大约阅读时间需要 3 分钟。

大数据计算技术

大数据概念

大数据概念是一个涵盖多个维度的复杂主题，涉及数据的产生、处理、分析和应用等多个方面。本文将从数据的定义、基本属性、技术特征等多个层面进行深入探讨。

数据的定义与特征

数据的基本定义

在计算机学科中，数据可以被定义为一个可以被理解、处理和存储的实体。数据的形式多样化，来源多样化，范围也呈现多样化特征。数据的转换过程是一个从数据到信息、知识再到价值的过程，这一过程决定了数据的价值。

数据的基本属性

Volume（规模体现）大数据的核心特征之一是数据量的庞大，通常达到petabytes（PB）级别。这种规模带来的影响体现在数据的存储架构和计算模型上：

数据存储架构：传统上依赖于基于行键表格存储格式的关系型数据库，但大数据环境下更倾向于基于分布式文件系统的分布式数据库。

数据计算模型：主要采用离线批处理框架（如MapReduce）和图并行计算框架（如Pregel、Hama），以及大内存计算系统。

Variety（多样性）大数据的另一个关键特征是数据来源的多样性和异构化特性。数据类型划分可以从以下几个维度进行：

结构特征

时效性

关联特性

数据类型

数据来源

数据的多样性带来了数据存储、管理和快速查询的难度。

Velocity（时效性）大数据处理往往需要高度的时效性，这意味着数据分析和处理需要在短时间内完成。

Value（价值密度）传统统计学方法依赖于局部数据或数据子集，而大数据分析则是基于完整数据集进行分析。价值低密度特性使得大数据分析需要依赖机器学习方法，通过数据的积累来训练和改进算法和计算程序。

大数据技术特征

大数据算法特性

数据计算

传统统计学与大数据计算的对比

样本空间：整个数据集

计算方法：机器学习方法

优势：避免样本失真，预测结果的精度改进是一个动态过程。

大数据计算系统特性

基础模型：分布式文件系统、NoSQL非关系型数据库

存储格式：基于键值对的列存储格式与基于主键的行存储格式

优势：支持非结构化或异构数据的存储和处理，支持分布式系统部署，支持超大规模数据集完成快速查询操作。

技术特性总结

大数据技术在算法、计算系统和开发技术方面展现出独特的特征。这些特征不仅体现在技术实现上，更反映在解决实际问题的能力上。理解和掌握这些特征，是在大数据领域发展中不可或缺的基础。

转载地址：http://meznz.baihongyu.com/

你可能感兴趣的文章

Powershell如何查看本地公网IP

pytorch从csv加载自定义数据模板

powershell对txt文件的服务器进行ping操作

powershell常用

PowerShell操作XML遇到的问题

PowerShell攻击工具Empire实战

PowerShell攻击工具Nishang实战

PowerShell攻击工具PowerSploit实战

Powershell管理系列（四）Lync server 2013 批量启用语音及分配分机号

PowerShell脚本运行完不要马上关闭用什么命令可以停留窗口窗口

PowerShell远程连接到Windows

power（8） identity

POW的重力之美

PO、VO、DAO、BO、DTO、POJO能分清吗？

pytorch介绍-ChatGPT4o作答

PP-PLL：基于概率传播的部分标签学习

pprint 排序字典但不是集合?

pptp拨号上网

ppt上的倒计时小工具_PPT中有哪些「看似很 LOW，实则惊艳」的小工具