Free Essay

Big Data

In:

Submitted By roger123paper
Words 1554
Pages 7
赛迪译丛
同步跟踪国外工业和信息化最新动向
2012 年 6 月 18 日 第 25 期 总第 57 期 内部资料

大数据:下一个创新、竞争和生产力的前沿 【译者按】 为深入了解大数据技术特点,更好把握大数据应用的 发展趋势,继上期刊登美国总统办事机构今年 4 月公布的《美国联邦 政府大数据研发计划》之后,本期《赛迪译丛》特别刊载由世界著名 咨询机构麦肯锡公司于 2011 年 5 月发布的《大数据:下一个创新、竞 争和生产力的前沿》报告。作为从经济和商业维度诠释大数据发展潜 力的第一份专题研究成果,该报告系统阐述了大数据概念,详细列举 了大数据的核心技术,深入分析了大数据在不同行业的应用,明确提 出了政府和企业决策者应对大数据发展的策略。 赛迪智库软件与信息 服务业研究所对这份专题报告进行了编译, 希望能为我国政府相关部 门提供决策参考。

‐ 1 ‐

麦肯锡认为, “大数据”是指其大小超出了典型数据 库软件的采集、储存、管理和分析等能力的数据集。该定 义有两方面内涵:一是符合大数据标准的数据集大小是变 化的,会随着时间推移、技术进步而增长;二是不同部门 符合大数据标准的数据集大小会存在差别。目前,大数据 的一般范围是从几个 TB 到数个 PB(数千 TB) 。 大数据可以发挥重要的经济作用,不但有利于私人商 业活动,也有利于国民经济和公民。数据可以为世界经济 创造重要价值,提高企业和公共部门的生产率和竞争力, 并为消费者创造大量的经济剩余。例如,如果能够富有创 造性而有效地利用大数据来提高效率和质量,预计美国医 疗行业每年通过数据获得的潜在价值可超过 3000 亿美元, 充分利用大数据 能够使得美国医疗卫生支出降低超过 8%; 的零售商有可能将其经营利润提高 60%以上;通过利用大 数据实现政府行政管理方面的运作效率提高,估计欧洲发 达经济体可以节省开支超过 1000 亿欧元(这其中尚不包 括可以用来减少欺诈、错误以及税差的影响作用) 。 麦肯锡认为,随着人们存储、汇聚和组合数据然后利
‐ 2 ‐

用其结果进行深入分析的能力超过以往,随着越来越尖端 技术的软件与不断提高的计算能力相结合,从数据中提取 洞见的能力也在显著提高。麦肯锡对大数据的具体研究成 果可以归纳为 5 个方面。 第一章 全球数据现状及发展趋势 当前大数据规模以及其存储容量正在迅速增长,大数 据已经渗透到各个行业和业务职能领域,成为重要的生产 因素,大数据的演进将与生产力的提高有着直接的关系。 (一)数据量呈现指数级增长 不同机构的研究成果都表明,未来数年全球数据总量 将会呈现指数性增长。麦肯锡估计,全球企业 2010 年硬 盘上存储了超过 7EB(1EB 等于 10 亿 GB,相当于美国国会 图书馆中存储数据的 4000 多倍)的新数据,消费者在个 人电脑等设备上存储了超过 6EB 的新数据。 (二)不同行业的大数据强度和内容各有不同 各个行业都呈现大数据增长的现象,但不同行业数据 存储量有所不同,数据产生和存储的类型在不同行业之间 也有所区别。证券、投资服务以及银行等金融服务领域拥
‐ 3 ‐

有最高的平均数字化数据存储量,通信和媒体公司、公共 事业公司以及政府等企业和组织也有规模显著的数字化 数据存储。这些数据强度高的行业更加具有通过大数据来 创造价值的潜力。 (三)现有趋势将继续推动数据增长 在各部门和地区之间,企业正在加快收集数据的步 伐,推动了传统的事务数据库的增长;医疗卫生等面向消 费者的行业中,多媒体的广泛使用刺激了大数据的持续扩 张;社交媒体的广泛普及以及物联网中应用的不断创新都 进一步推动了大数据不断增长……这些相互交叉的动力 刺激了数据的增长,并将继续推动数据池的迅速扩张。 (四)大数据是继传统 IT 之后下一个提高生产率的 技术前沿 只要具有适当的政策推动,大数据的使用将成为未来 提高竞争力、生产力、创新能力以及创造消费者盈余的关 键要素。 医疗卫生行业,能够利用大数据避免过度治疗、减少 从而降低系统成本、 提高工作效率, 错误治疗和重复治疗,
‐ 4 ‐

改进和提升治疗质量;公共管理领域,能够利用大数据有 效推动税收工作开展,提高教育部门和就业部门的服务效 率;零售业领域,通过在供应链和业务方面使用大数据, 能够改善和提高整个行业的效率;市场和营销领域,能够 利用大数据帮助消费者在更合理的价格范围内找到更合 适的产品以满足自身的需求,提高附加值。 如今,数据已经成为可以与物质资产和人力资本相提 并论的重要的生产要素。伴随着多媒体、社会媒体以及物 联网的发展,企业将收集更多的信息,从而带来数据呈现 指数级的增长。大数据在同时为商业和消费者创造价值方 面具有巨大的发展潜力。 第二章 大数据的关键技术 从大数据中挖掘更多的价值,需要运用灵活的、多学 科的方法。目前,源于统计学、计算机科学、应用数学和 经济学等领域的技术已经开发并应用于整合、处理、分析 和形象化大数据。一些面向规模较小、种类较少的数据开 发的技术,也被成功应用于更多元的大规模的数据集。依 靠分析大数据来预测在线业务的企业已经并持续自主开
‐ 5 ‐

发相关技术和工具。随着大数据的不断发展,新的方法和 工具正不断被开发。 (一)可用于大数据分析的关键技术 可用于大数据分析的关键技术源于统计学和计算机 科学等多个学科,其中关于分析新数据集方法的研究仍在 继续。需要注意的是,A/B测试、回归分析等技术也可应 用于小数据集分析。 麦肯锡认为,可用于大数据分析的关键技术主要包括 A/B测试、关联规则挖掘、分类、数据聚类、众包、数据 融合和集成、数据挖掘、集成学习、遗传算法、机器学习、 自然语言处理、神经网络、神经分析、优化、模式识别、 预测模型、回归、情绪分析、信号处理、空间分析、统计、 监督式学习、无监督式学习、模拟、时间序列分析、时间 序列预测模型、可视化技术等(见表1) 。

‐ 6 ‐

表1.可用于大数据分析的关键技术
名称 定义 也称为分离测试或水 桶测试。通过对比测 试群体,确定哪种方 案能提高目标变量的 技术。 示例 备注

A/B测试

大数据可以使大量的 确 定何 种的标 题、 布 测试被执行和分析, 局、 图像或颜色可以提 保证这个群体有足够 高 电子 商务网 站的 转 的规模来检测控制组 化率。 和治疗组之间有意义 的区别。 市场购物篮分析, 零售 商 可以 确定哪 些产 品 是经常一起销售的, 并 使 用这 些信息 进行 营 销。

关联规则 挖掘

发现大数据仓库中变 量之间的关系的一组 技术。这些技术包含 多种算法来生成和测 试可能的规则。

典型的例子就是发 现,很多超市的顾客 在买尿布的同时也会 买啤酒

分类

对 特定 客户行 为的 预 在已确定分类的基础 测(例如购买决策、流 上,识别新的数据点 失率、消费率等) ,有 属于哪种类别的一组 一 个明 确的假 设或 客 技术。 观的结果。

这些技术被经常描述 为监督式学习,因为 有一个训练集的存 在,他们与聚类分析 形成对比,聚类分析 是一类无监督学习。

数据聚类

划分对象的统计学方 法,将不同的集群划 将 客户 划分成 几个 自 是一种没有使用训练 分成有相似属性的小 相 似性 的群体 以进 行 数据的无监督学习。 群体,而这些相似属 针对性的营销。 性是预先未知的。 用来收集数据的技 术,这些数据是由大 规模群体或组织公开 征集,通过网络媒体 提交的。

众包

这是一种大规模协作 和 使 用 Web 2.0 的 一 个实例。

‐ 7 ‐

名称

定义

示例

备注

集成和分析多个来源 数据的技术,比分析 数据融合和 单一来源数据更能获 集成 得高效、可能更精确 的结果。 结合数据库管理的统 计和机器学习方法从 大数据集提取模式的 技术。包括关联规则 学习、聚类分析、分 类和回归。 通过多个预测模型 (均通过使用统计数 据或机器学习开发) , 以取得比任何成分模 型更好的预测效果。

将来自社会媒体的数 从 网络 采集的 数据 经 据,经过自然语言处 过 整合 对复杂 的分 发 理,可以结合实时地 系 统的 表现, 比如 炼 销售数据,以确定营 油。 销行为对顾客的情绪 和购买行为的影响。 挖 掘客 户数据 以确 定 最 可能 获得订 单的 客 户群, 挖掘人力资源数 据 以识 别最能 干的 员 工, 或市场购物篮分析 来 模拟 客户的 购买 行 为。

数据挖掘

集成学习

一种监督式学习。

遗传算法

作为进化算法的一种 通过模拟自然进化或 改善作业调度、 优化投 类型,这些算法非常 适者生存过程的搜索 资组合等。 适合求解非线性问 最优解的技术。 题。 有关设计和开发算法 的计算机科学(曾被 称为“人工智能” , 自然语言处理。 ) 允许电脑基于经验数 据进化。 机器学习最主要的一 个研究重点是自动学 会识别复杂的模式, 并基于数据作出明确 的决定。

机器学习

自然语言 处理

使 用社 交媒体 的情 绪 使用计算机算法来分 大多数自然语言处理 分析, 以判断潜在客户 析自然语言的一组技 技术是机器学习的一 对 一个 品牌活 动的 反 术。 类。 应。

‐ 8 ‐

名称

定义 通过生物神经网络的 结构和运作(即脑细 胞和内连接)的启发 发现数据模式的计算 模型

示例

备注

神经网络

神经网络非常适用于 发现非线性模型。它 识 别高 价值客 户离 开 可用来做模式识别和 公 司的 风险以 及识 别 优化。一些神经网络 欺诈性保险理赔。 的应用涉及监督式学 习和非监督式学习。

神经分析

用来描述图中或网络 识 别最 有影响 力的 营 在社会网络分析中, 中的离散节点关系的 销目标, 或识别企业信 群体或组织中单个个 技术。 息流的瓶颈。 体之间的关系 用来重新设计复杂的 系统和流程,依据一 个或多个目标措施 (例如成本、速度或 可靠性)来改善其表 现的数值方法组合。 依照一种特定的算法 给某种产值 (或标签) 分配给定的输入值 (或实例)的机器学 习技术。

优化

改善业务流程, 例如调 度、路由和地板格局, 遗传算法就是优化技 并做出决策, 如产品范 术的一种。 围策略、 挂钩投资分析 和研发组合策略。

模式识别

分类技术属于这种类 型

预测模型

在 客户 关系管 理中 的 一个应用: 通过预测模 通过建立或选择一个 型 估计 客户会 流失 的 回归就是预测模型中 数学模型得出最好预 可 能性 或者客 户被 交 的一种。 测结果的技术。 叉 销售 其他产 品的 可 能性。 确定当一个或多个自 变量变化时因变量变 化的程度的统计技 术。 基 于不 同的市 场和 经 济 变量 或最能 影响 客 用于数据挖掘,经常 户 满意 度的制 造业 参 用来预测。 数,来预测销售规模。

回归

‐ 9 ‐

名称

定义

示例

备注 分析的内容主要包括 特征识别或有关表达 情感的产品,并确定 属于正面或负面或中 性的类型以及强度。

情绪分析

企 业通 过情绪 分析 来 自然语言处理和其他 分 析社 会媒体 (如 博 分析技术的应用,用 客、微博和社交网络) 于从文字材料识别和 确定不同的客户群, 以 提取主观信息。 及 股东 对他们 产品 和 行为的反应。 空 间数 据的空 间回 归 ( 例如 消费者 是否 愿 源于分析拓扑、 几何、意 购买 与位置 相关 的 地 理 数 据 的 统 计 技 产品)或模拟(例如如 术。 何 将制 造业的 供应 链 网 络与 不同的 地理 位 置结合起来) 。

空间分析

空间分析的数据经常 源于地理信息系统 (GIS),采集的数据 包括位置信息,如地 址或纬度/经度坐标。

统计技术经常用于判 断变量之间发生关系 的概率( “零假设”, ) 以及潜在因果关系推 收集、组织和说明数 通过A/B测试判断哪种 测变量之间的关系 统计 据的科学,包括设计 类 型的 营销材 料会 最 (如统计学意义) 统 。 调查和实验。 快增加收入。 计学技术同样用于降 低I类型(误报)和II 类型(假阴性)错误 的可能性。 从一组训练数据集推 监督式学习 断一个函数或关系的 分类和支持向量机。 机器学习技术。 用于找到未标记数据 无监督式 聚类分析属于无监督 中的隐形结构的机器 学习 式学习。 学习技术。

‐ 10 ‐

名称

定义

示例

备注

模拟

例如, 蒙特卡罗模拟, 为复杂系统的行为建 估 计不 同措施 在不 确 是一类依赖重复随机 模,常用于预测和情 定 情况 下满足 财务 目 抽样,其结果是给出 境规划。 标的可能性。 一个结果的概率分布 的直方图。 组源于统计数据和信 号处理的技术,从一 股 票市 场指数 的时 间 组连续的时间值代表 价 值或 每天特 定条 件 的数据点提取有用的 下治疗的患者数。 信息。 包括结构建模、分解 利用过去相同或其他 成一系列的趋势,季 预 测销 售规模 或传 染 系列的时间序列值来 节性和剩余组件,可 性病人就诊的数量。 预测未来的模型。 以用于识别数据的周 期性模式。

时间序列 分析

时间序列 预测模型

(二)专门用于处理大数据的关键技术 麦肯锡认为,可专门用于整合、处理、管理和分析大 数据的关键技术主要包括Big Table、商业智能、云计算、 Cassandra、数据仓库、数据集市、分布式系统、Dynamo、 GFS、Hadoop、HBase、MapReduce、Mashup、元数据、非 关系型数据库、关系型数据库、R语言、结构化数据、非 结构化数据、半结构化数据、SQL、流处理、可视化技术 等。

‐ 11 ‐

(三)可视化技术 麦肯锡认为,可视化技术是大数据应用的重点之一, 目前主要包括标签云、Clustergram、历史流、空间信息 流等技术和应用。 第三章 大数据应用于各行业的关键发现 大数据的有效利用可以创造巨大的潜在价值。许多行 业和承担业务职能的组织可以利用大数据提高人力、物力 资源的分配和协调能力,减少浪费,增加透明度,并促进 新想法和新见解的产生。 (一)大数据可以通过多种方式创造价值 麦肯锡发现利用大数据创造价值的方式有以下五种。 1、创建透明度 仅仅让利益相关方能够更加容易地及时获取信息,就 可以创造巨大价值。例如,在公共部门,让原本相互分离 的部门之间更加容易地获取相关数据,就可大大降低搜索 和处理时间。在制造业,整合来自研发、工程和制造部门 的数据以便实现并行工程,可以显著缩短产品上市时间并 提高质量。
‐ 12 ‐

2、通过试验来发现需求、暴露可变因素并提高业绩 随着组织创造并存储更多数字形式的交易数据,并以 实时或接近实时的方式收集更多准确而详细的绩效数据, 组织能够通过安排对比实验,运用数据分析获取更好的决 策,例如在线零售商,通过将流量和销售结合的试验论证 决定价格调整和促销活动的制定。 3、根据客户需求细分人群 利用大数据使组织能够对人群进行非常具体的细分, 以便精确地定制产品和服务以满足用户需求。这一方法在 营销和风险管理领域广为人知。随着技术的进步,许多公 司已经能够将客户实时微观细分以便锁定促销和广告方 式。在公共部门,例如公共劳动力机构,利用大数据,为 不同的求职者提供工作培训服务,确保采用最有效和最高 效的干预措施使不同的人重返工作岗位。 4、通过自动化算法替换或支持人为决策 成熟的分析方法能够显著改善决策过程、实现风险最 小化,以及揭示本来隐藏着的洞见。大数据可以提供算法 研究或者算法执行所需要的原始材料。这种分析方法对于
‐ 13 ‐

从税务机关(可以运用自动化风险引擎来标注需要进一步 调查的人选)到零售商(可以利用算法来优化决策过程, 例如,根据实时店内及在线销售来自动微调库存和定价) 在内的各种组织都有用途。有些情况下,决策未必会自动 化,但可以通过使用大数据技巧和技术分析整个巨大的数 据库获取。有些组织已经在通过分析来自客户、雇员甚至 嵌入产品中的传感器的整个数据集而做出更有效的决策。 5、创新商业模式、产品和服务 大数据让企业能够创造新产品和服务,改善现有产品 和服务,以及创造全新的商业模式。医疗保健领域,通过 分析病人的临床和行为数据已经创造了瞄准最适当群体 的预防保健项目。制造企业通过内嵌在产品中的传感器获 取数据创新售后服务并改进下一代产品。实时位置数据的 出现已经创造了一套全新的从导航应用到跟踪的服务体 系。 (二)大数据的运用对各个行业都具有重要意义,在 某些行业将产生更大收益 基于一个融合了多种量化指标的潜在价值指标,比较
‐ 14 ‐

美国各个行业生产率的历史和利用大数据获取价值的潜 力,可以观察到行业间的模式迥异。 全球交易的计算机和电子产品及信息行业生产率增 长一直非常强劲,该行业获取了巨大的数据池(例如互联 网公司收集大量的在线行为数据)且创新速度非常快(例 如消费电子产品介绍更新很快) ,必将通过大数据的使用 而大幅获益。事务型且客户集中的政府以及金融保险行 业,只要通过细分和自动化算法克服一些壁垒就可以从利 用大数据中获取非常大的收益。建筑、教育服务、艺术和 娱乐等行业生产率已经出现了负增长,这表明,这些领域 在提高生产率方面都面临强大障碍。然而,如果这些障碍 是可以克服的,可以认为大数据使这些领域的生产力实现 正增长。在其余行业,如制造业、批发贸易等全球交易的 行业往往经历过较高的生产率历史增长,而零售、医疗保 健提供商、住宿和食物等本地服务行业经历了较低的增 长。这些行业可以利用大数据获得显著的价值,尽管这样 做在很大程度上会依赖障碍的克服。 尽管所有行业通过使用大数据的来获取价值都必须
‐ 15 ‐

克服一些障碍,但对于某些行业来说,其障碍从结构上说 比其他行业要复杂。例如,政府部门因为数据的可用性和 数据处理的思维定势可能会面临更高的障碍。教育部门, 加上相对缺乏的IT投资,面临挑战更严峻。而竞争密集的 行业,如金融保险、制造业和专业服务等行业,比起工作 更自由的行业面临的障碍更低。 (三)大数据在全球范围内提供了非常巨大的潜在价 值,有些地区可能会最快获得 麦肯锡研究的案例覆盖了发达经济体和新兴经济体, 研究结果表明,利用大数据可以跨地域获取显著价值。发 达市场中卫生保健和零售领域,利用大数据有非常巨大的 潜力。利用个人位置数据创造潜在价值有20%到40%在新兴 市场。 ICT基础设施成熟程度使得不同的经济和地区产生的 数据表现出非常不同特征。这表明一些地区将较快取得价 值。目前,北美和欧洲占了大部分的新数据存储,可见, 至少在短期内,通过大数据创造全球大部分潜力价值将在 最发达的经济体。新兴市场中个体企业通过利用大数据获
‐ 16 ‐

取重要价值。另外,发展中市场组织可以在发达国家数据 中心中存储和分析他们的数据。 只要条件具备,发展中经济体能够利用大数据发挥巨 大的潜力。例如,亚洲地区移动手机用户最多,估计2010 年有8亿终端设备,其中中国设备数量最多,个人位置数 据亚洲已经领先。此外,在IT资产方面,尽管一些新兴市 场组织落后于发达市场,但发展中经济体可以用最新技术 跳跃式前进。 (四)通过大数据实现价值的重要制约是人才短缺 通过大数据实现价值的一个重要制约因素是人才短 缺,尤其是缺少拥有统计学和机器学习方面专长的人,以 及知道如何通过运用从大数据获得的洞见来运营企业的 管理者和分析师。 麦肯锡预计,截止 2018 年,美国大数据领域中深度 分析人才职位的需求会超过供给,缺口为 14 万到 19 万个 职位。这类人才不仅需要具备固有的数学能力,还需要数 年的培训。此外,麦肯锡预计截止 2018 年,美国需要增 加 150 万能够提出正确的问题并有效利用大数据分析的管
‐ 17 ‐

理者和分析师。美国和其他面临类似短缺的经济体不能简 单地靠改变毕业生需求、等待具有更多技能的人才毕业, 或是引进人才来填补这个缺口,故须对相当数量人才进行 适当的再培训。 (五)为充分获取大数据潜力必须解决的主要问题 1、数据政策 由于大规模的数据是数字化的和横跨组织边界的,因 此一些政策问题将变得越来越重要,其中包括但不限于隐 私、安全、知识产权和责任。显然,随着大数据的价值愈 加明显,隐私是个愈发重要的问题(尤其是对消费者来 说) 另一个更紧迫的问题是数据安全。 。 一项研究发现 2005 年到 2009 年之间,美国被盗用的数据数量增加了 30%。 大数据日益提高的经济意义也产生大量的法律问题, 尤其是面临数据与许多其他资产具有根本性的差异的时 候。数据可以与其他数据结合起来完美而轻松地复制。同 样一份数据可以由多个人同时使用。因此,知识产权将成 为一个更重要的考虑因素。 此外, 还有与责任相关的问题: 当一份不准确的数据导致负面结果时谁应负责?
‐ 18 ‐

2、技术和技能 要通过大数据获取价值,组织将不得不部署新的技术 (例如存储、计算和分析软件)和技能(新的分析类型) 。 技术难题的范围以及解决它们的优先次序将因机构的数 据成熟度而异。以前遗留下来的旧系统和不兼容的标准和 格式也常常会妨碍数据与成熟的大数据分析工具的整合。 新的问题和不断提高的计算能力将刺激新型分析技能的 开发。另外,人们还需要技术和技能方面的持续创新,以 帮助个人和组织整合、分析、可视化和消费不断扩大的数 据洪流。 3、组织变革和人才 组织领导往往对大数据蕴含的价值以及如何释放这 一价值缺乏了解。麦肯锡发现,许多组织既不具备挖掘大 数据的技术人员,又没有适当构建工作流和激励措施以便 优化大数据的使用,从而做出更好的决策并采取更有根据 的行动。 4、数据访问权 越来越多的公司需要访问第三方数据来源并将自己
‐ 19 ‐

信息与外部信息进行集成以充分获取大数据的潜力。在许 多情况下,市场尚未建立交易或共享数据机制。为了充分 获得大数据带来的价值,需要克服阻碍数据获取的障碍。 5、行业结构 从大数据中获取价值的难易有时会取决于个别产业 或行业的结构。缺乏竞争强度和绩效透明的行业以及利润 高度集中的产业从大数据中获取价值可能会很缓慢。例 如,在公共部门。 麦肯锡研究表明,大数据可以在很大的范围内创造价 值,但为获取最大效益将需要所有参与者来克服一系列的 障碍和解决公众深切关注的关键问题,特别是隐私和安 全。 第四章 企业应用大数据的建议 随着大数据成为越来越有价值的资产,有效运用大数 据成为企业竞争的关键,企业管理者有必要开始将大数据 纳入企业计划,并从 5 方面利用大数据创造价值。 (一)盘存数据资产:私有、公共和购买 企业应该为自己的私有数据制作详细目录,并将所能
‐ 20 ‐

获取的数据进行系统分类,包括公开的可获取的数据和可 以购买的数据。企业可以通过诱人的估价或者激励方案获 取第三方的数据资源,并与自有的数据整合。 (二)明确创造潜在价值所面临的机遇和挑战 大数据可以通过 5 种方式创造价值,企业应该发现并 优先考虑这些机遇。充分利用大数据的最有效途径是采取 目标明确的实验(大数据元应用程序实验) ,而不是在执 行前制定完善的企业计划。麦肯锡认为,创造可观的新价 值不一定需要直接跳到复杂的大数据分析中,很多情况 下,获取数据或基本数据分析就能创造巨大的价值。 管理者不仅可以根据企业能力等级考察创造价值的 潜力,还可通过数据盘整中数据成熟度获取价值。企业还 应该注意大数据的潜在干扰因素,即在加强数据聚集和分 析价值的同时阻止新的进入者加入。同时应该关注跨领域 产业的出现,如个人地理位置信息(这是一个创新速度很 快的领域) 。这些领域常常有着高度碎片化的数据价值链, 诸多数据保管者发挥着不同的作用,试图找到合适的商业 模式以最大化分享产业利润。
‐ 21 ‐

数据规模和 IT 基础设施需求可能成为大数据发展的 一个关键驱动力,这对很多的行业规模以下的企业既是机 遇又是挑战。 (三)增强自身实力以创造数据驱动的组织 企业需要有合适的人和方法获取大数据的价值。在人 员方面,越来越紧缺的关键人才包括数据深度分析人才以 及知道如何利用大数据获得的洞见来运营企业的管理者 和分析师。企业必须大规模招聘数据深度分析人才,需要 明白如何组建数据分析人员骨干,如何留住和激励这些有 价值的人才骨干,并且需要制定培训计划增强管理者对大 数据分析技术的理解。 (四)制定企业信息战略 企业应该制定一个综合考虑数据模型、数据架构和数 据属性的完整的大数据战略。有效的大数据战略必须包括 能共同使用的数据模型;可交易、一体化、可分析的数据 架构;安全合规以及前端服务。 (五)解决数据政策问题 企业制定数据政策要遵守隐私法,并全面考虑采取哪
‐ 22 ‐

种法定协议,与股东建立怎样的信任预期,并需要清楚地 将数据政策告诉股东和客户。企业需要清楚地确定和执行 覆盖所有的 IT 功能的企业风险战略。企业领导者需要全 力应付数据知识产权方面的法律问题。 竞争和获取大数据价值需要企业领导者克服人才、技 术、隐私安全、企业文化和数据获取等障碍。对于企业领 导者,识别和发挥大数据在企业计划中的作用,并安排推 动者实现价值,是十分紧迫的。 第五章 政策制定者应对大数据的策略 大数据不仅是企业竞争和增长的引擎,而且对于提高 发达国家和发展中国家的生产率、创新能力和整体竞争力 都有着重要作用。政策制定者需要认识到利用大数据可以 刺激经济的下一波增长。为帮助企业获取大数据收益,政 策制定者需要从以下 6 方面制定相关政策。 (一)加强大数据人才培育 政府可以采取多种措施增加大数据相关人才供给,包 括实施教育培养计划、消除从其它国家地区引进人才的障

‐ 23 ‐

碍等。除此之外,政府应该创造激励措施并对企业管理者 进行数据分析技术培训。 (二)制定奖励措施促进数据共享 政府在创造数据共享和交易的有效市场方面可以发 挥重要作用,包括制定知识产权方面规则、制定鼓励数据 共享的奖励措施、强制要求收集并公开国企财务数据、以 及面向公众开放和共享政府部门活动和项目信息等。 (三)制定平衡数据使用与数据安全保护的政策 政策制定者需要加强制定并执行关于商业和个人数 据隐私的方针和法律,并通过强大的法律阻挡黑客和其它 袭击。当然,政府、非营利组织和私人部门需要开发教育 项目,以便公众理解哪些个人信息是可以获取的,如何使 用、怎样使用,以及个人是否允许这种使用。 (四)建立有效的促进创新的知识产权框架 在大数据时代,数据价值链中的创新将不断出现,更 好地产生和获取数据的技术也将出现。这些创新需要建立 有效的知识产权保护体系,促进数据创造价值、数据共享 和整合。
‐ 24 ‐

(五)克服技术障碍并加速关键技术研发 政策制定者加强制定 IT 工具或数据资源池的标准和 指南,鼓励存在缺口的重要领域关键技术研发,推动行业 标准制定机构制定覆盖 IT 工具和数据类型的标准,并给 予资金支持、税收支出和减免、金融支持等激励支持大数 据研究。 (六)确保信息通信技术基础设施投资 政策制定者应该使基础设施成为大数据发展的重要 组成部分。很多国家对扩建基础设施制定了专门的激励措 施。例如,美国政府出台了一系列货币奖励措施,鼓励宽 带建设(如农村宽带工程)和实施电子医疗记录。 总之,政策制定者在人才、研发、基础设施和培育创 新等关键领域能发挥重要作用,促进企业从大数据中获取 最大收益。但是保持企业和公众间权利的平衡是个艰巨的 任务,政府在赋予企业在更大范围使用数据以获取潜在收 益同时,要减轻公众对隐私和个人信息安全的担忧。
‐ 25 ‐

译自:BIG DATA: THE NEXT FRONTIER FOR INNOVATION, COMPETITION, AND PRODUCTIVITY, MAY 2011 BY McKinsey Global Institute

译文作者:工业和信息化部赛迪研究院 联系方式:18600704451 电子邮件:chenyang@ccidthinktank.com

安晖 陈阳 张鼎 刘琼 韩健 吕海霞

‐ 26 ‐

人才,还是人才

才是我们不断前进的动力
从专家到名家,再到大家,是赛迪研究院人才培养的三个阶段, 也是我们实施人才强院战略的重要步骤。

机构名称:工业和信息化部赛迪研究院 通讯地址:北京市海淀区万寿路27号电子大厦25层 邮政编码:100846 联 系 人:纪丽斌 王宏伟 宋 宇 联系电话:010-68200734 13520485978 010-68208785 13671313625 010-68200725 18601152947 传 真:010-68200759 网 址:www.ccidthinktank.com 电子邮件:jilibin@ccidthinktank.com

报:部领导 送:部机关各司局,各地方工业和信息化主管部门, 相关部门及研究单位,相关行业协会

编 辑 部:工业和信息化部赛迪研究院 通讯地址:北京市海淀区紫竹院路 66 号赛迪大厦 15 层国际合作处 邮政编码:100048 联 系 人:王栋 联系电话: (010)88559594 18311028085 传 真: (010)88558833 网 址:www.ccidgroup.com 电子邮件:wangdong@ccidgroup.com

‐ 1 ‐

Similar Documents

Free Essay

Big Data

...A New Era for Big Data COMP 440 1/12/13 Big Data Big Data is a type of new era that will help the competition of companies to capture and analyze huge volumes of data. Big data can come in many forms. For example, the data can be transactions for online stores. Online buying has been a big hit over the last few years, and people have begun to find it easier to buy their resources. When the tractions go through, the company is collecting logs of data to help the company increase their marketing production line. These logs help predict buying patterns, age of the buyer, and when to have a product go on sale. According to Martin Courtney, “there are three V;s of big data which are: high volume, high variety, high velocity and high veracity. There are other sites that use big volumes of data as well. Social networking sites such as Facebook, Twitter, and Youtube are among the few. There are many sites that you can share objects to various sources. On Facebook we can post audio, video, and photos to share amongst our friends. To get the best out of these sites, the companies are always doing some type of updating to keep users wanting to use their network to interact with their friends or community. Data is changing all the time. Developers for these companies and other software have to come up with new ways of how to support new hardware to adapt. With all the data in the world, there is a better chance to help make decision making better. More and more information...

Words: 474 - Pages: 2

Free Essay

Big Data

...Lecture on Big Data Guest Speaker Simon Trang Research Member at DFG RTG 1703 and Chair of Information Management Göttingen University, Germany 2014 The City City of Göttingen • Founded in the Middle Ages • True geographical center of Germany • 130,000 residents Chair of Information Management Lecture on Big Data at Macquarie University 2 2 The University Georg-August-Universität Göttingen (founded in 1737) • • • • One of nine Excellence Universities in Germany 13 faculties, 180 institutes 26,300 students (2013) 11.6% students from abroad (new entrants: approximately 20%) • 13,000 employees (including hospital and medical school), including 420 professors • 115 programs of study from A as in Agricultural Science to Z as in Zoology are offered (73 bachelor / 22 master programs) Chair of Information Management Lecture on Big Data at Macquarie University 3 “The Göttingen Nobel Prize Wonder” Over 40 Nobel prize winners have lived, studied, and/or lived, studied or/and researched 41 Prize researched at the University of Göttingen, among them… at the University of Göttingen, among them… • • • • • • • • • • • • • • Max von Laue, Physics, 1914 Max von Laue, physics, 1914 Max Planck, physics, 1918 Max Planck, Physics, 1918 Werner Heisenberg, physics, 1932 Werner Heisenberg, Physics, 1932 Otto Hahn, chemistry 1944 Otto Hahn, Chemistry 1944 Max Born, physics, 1954 Max Born, Physics, 1954 Manfred Eigen, chemistry, 1967 Manfred Eigen, Chemistry, 1967 Erwin...

Words: 1847 - Pages: 8

Free Essay

Big Data

...Article Summary - Data, data everywhere Data 2013.10.01 | Major Media Communication | Subject Understanding Digital Media | Student no 2010017713 | Professor Soochul Kim | Name Eunkang Kim | Double-side of a vast amount of information in accordance with development of technology is treated in this article. Even now, a lot of digital information beyond imagination is being accumulated all over the world. Not only the amount of information is increasing, but the production rate of one is also getting speedy. This explosion of information has some reasons. The main reason is technology development. It can actualize things which were impossible in the past. The digital technology changes a lot of information into digitization. Also, many people utilize them with the powerful mean digital device. Men communicating by information contributed to increase the amount of information. Humans who escaped from illiteracy and economic hardship have generated many kinds of information, which are utilized in several fields such as politics, economy, law, culture, science, and so on. The production rate of information is faster than the speed of technology development. Though the digital devices handling the information are getting various, storage space is not enough to store the increased information. Sea is not calm, but it has that big waves. Likewise, lots of information comes to our life. It is important to judge what information is...

Words: 614 - Pages: 3

Premium Essay

Big Data

...I. Big data emerging factor in IT area A. World’s notice for big data An appearance of tablet PC and social media was the hottest issue in IT market in last year. There are some successful global companies that go along the trends although it is not that long period since they appeared in the world, such as Apple, Google, Facebook, and Twitter. They have something in common. That is, they are based on ‘Big Data’ technology. As a result of using ‘big data’, the amount of stored data by their big data system during 2012 is much more than that of data which had been produced and stored until 2011. It helps to solve several problems in the company. Due to the geometrical increase of the amount of data, the important of big data will be continuous. Big data is selected as one of noticeable keyword in 2013 IT area with mobility, social, and cloud. It will be main factor of growth of IT infrastructure in the medium to longer term and is expected to provide new strategic superiority for many companies. It is highly acclaimed at the domestic market and also the foreign market. Several successful cases of applying big data shows that it can be positive factor helping to recover global economy. Moreover, it is not limited to IT-related business but the introduction in various areas will create value. B. Background of emerging big data In fact, there are many efforts to extract meaningful information through collection and analysis of huge amount of data. Through this effort...

Words: 2394 - Pages: 10

Free Essay

Big Data

...Big Data Management: Possibilities and Challenges The term big data describes the volumes of data generated by an enterprise, including Web-browsing trails, point-of-sale data, ATM records, and other customer information generated within an organization (Levine, 2013). These data sets can be so large and complex that they become difficult to process using traditional database management tools and data processing applications. Big data creates numerous exciting possibilities for organizations, but along with the possibilities, there are challenges. Managers must understand the pitfalls and limitations, as well as the potential of big data (Levine, 2013). The focus of this report is the business potential and implications of big data as well as understanding the challenges and limitations of big data management. The potentials for big data are numerous; however, in this report only five potentials and implications for use are discussed. These include the following: knowledge management, social media, in travel, banking, and marketing and advertising. Knowledge Management One of the greatest potential for big data is knowledge management. A goal of knowledge management is the ability to integrate information from multiple perspectives to provide the insights required for valid decision-making such as where to invest marketing dollars, how much to invest, or whether to expand into a new geographic market (Lamont, 2012). In terms of knowledge management, three dimensions...

Words: 1175 - Pages: 5

Premium Essay

Big Data

...examine the definition of big data. It also seeks to examine the components of a Unified Data Architecture and its ability to facilitate the analysis of big data. 2 WHAT IS BIG DATA Cuzzocrea, Song and Davis (2011) defined big data in part as being “enormous amounts of unstructured data produced by high-performance applications falling in a wide and heterogeneous family of application scenarios”. In recent years there has been an increasing interest and focus on big data. Many and varied definitions have been proposed but without a consensus on a single definition. The MIT Technology Review (2014), brought attention to the work of Ward and Barker (2014) which examined a number of definitions of big data that have attracted some general ICT industry support from leading ICT industry analysts and organisations such as Gartner, Oracle and Microsoft. In their work they proposed to provide a “concise definition of an otherwise ambiguous term”. The author having just attended a digital government conference with a large proportion of big data tagged presentations also noted that no single definition was offered. There was however a common content theme that supported the Ward and Barker definition of: “Big data is a term describing the storage and analysis of large and or complex data sets using a series of techniques including, but not limited to: NoSQL, MapReduce and machine learning.” 3 UNIFIED DATA ARCHITECTURE 3.1 WHAT IS THE UNIFIED DATA ARCHITECTURE? The concepts...

Words: 579 - Pages: 3

Premium Essay

Big Data

...have largely penetrated the communication industry and have since overtaken the use of computers in accessing the internet (Australian Communications and Media Authority, 2012). Consequently, business organizations have since devised better marketing and planning strategies by utilizing Big Data facilities and technologies whereby businesses are capable of deriving user requirements based on the searches potential users conduct on their mobile devices. From our initial report, we were able to highlight how Big Data is utilized in an organization and the accrued advantages against disadvantages of implementing Big Data technologies. We shall begin this report by first responding to the issues raised by management and then continue to make recommendations on the utilization of Big Data. Addressing Feedback Big Data technologies are fairly new to this organization and thus management was bound to raise issues concerning implementation and feasibility of the project. In this section, we shall briefly highlight these issues and how they may be addressed to achieve the organization’s objectives cost effectively. These issues include; i. Cost of implementing Big Data technologies – Big Data...

Words: 1262 - Pages: 6

Free Essay

Big Data

...The Situation of Big Data Technology Yu Liu International American University BUS 530: Management Information Systems Matthew Keogh 2015 Summer 2 - Section C Introduction In this paper, I will list the main technologies related to big data. According to the life cycle of the data processing, big data technology can be divided into data collection and pre-processing, data storage and management, data analysis and data mining, data visualization and data privacy and security, and so on. The reason I select topic about big data My major is computer science and I have taken a few courses about data mining before. Nowadays more and more job positions about big data are showing at job seeking website, such as Monster.com. I am planning to learn some mainstream big data technologies like Hadoop. Therefore, I choose big data as my midterm paper topic. Big data in Google Google's big data analytics intelligence applications include customer sentiment analysis, risk analysis, product recommendations, message routing, customer losing prediction, the classification of the legal copy, email content filtering, political tendency forecast, species identification and other aspects. It is said that big data will generate $23 million every day for Google. Some typical applications are as follows: Based on MapReduce, Google's traditional applications include data storage, data analysis, log analysis, search quality and other data analytical applications. Based on Dremel system...

Words: 1405 - Pages: 6

Premium Essay

Big Data

...Big Data is a massive volume of data. It's usually so massive that it becomes complicated to comprehend using tools such as on-hand database, and traditional data processing applications. Some problems that come up are storage, sharing, analysis, and search.Even though these problems do occur it still can be helpful in business operations, and better business decisions. This data can also help give companies informations which can increase profit, bring more customers, and overall increase the business's value. Characteristics of Big Data include the five V’s. The first one is volume, which is the quantity of data. The second is Variety, which the type of Data. The third is velocity, which is the speed of the data is gathered. The fourth one Variability, which is inconsistency of data can hamper processes to manage it. The final one is Veracity, which is the quality of data captured can vary. These data sets are growing rapidly mainly because they are gathered at a fairly cheap. The world's technological per-capita are doubling every 40 months. Business intelligence with data with high information density to look for trends. Big Data also increased information management specialist. Some of the largest companies like IBM and Microsoft spent over 15 billion dollars on software firms which specialize in data analytics. Governments use big data because it's efficient in terms of productivity and innovation. While gathering big data is a big benefit there are also some issues...

Words: 293 - Pages: 2

Premium Essay

Big Data

...Big Data is Scaling BI and Analytics How the information surge is changing the way organizations use business intelligence and analytics Information Management Magazine, Sept/Oct 2011 Shawn Rogers Like what you see? Click here to sign up for Information Management's daily newsletter to get the latest news, trends, commentary and more. The explosive growth in the amount of data created in the world continues to accelerate and surprise us in terms of sheer volume, though experts could see the signposts along the way. Gordon Moore, co-founder of Intel and the namesake of Moore's law, first forecast that the number of transistors that could be placed on an integrated circuit would double year over year. Since 1965, this "doubling principle" has been applied to many areas of computing and has more often than not been proven correct. When applied to data, not even Moore's law seems to keep pace with the exponential growth of the past several years. Recent IDC research on digital data indicates that in 2010, the amount of digital information in the world reached beyond a zettabyte in size. That's one trillion gigabytes of information. To put that in perspective, a blogger at Cisco Systems noted that a zettabyte is roughly the size of 125 billion 8GB iPods fully loaded. Advertisement As the overall digital universe has expanded, so has the world of enterprise data. The good news for data management professionals is that our working data won't reach zettabyte scale for some...

Words: 2481 - Pages: 10

Premium Essay

Big Data

...Introduction to Big data Every day, 2.5 quintillion bytes of complex, every changing data are generated. (IBM) Data comes from social sites, digital images, transaction records, and countless unknown resources. The amount of data we generate daily is enormous, and the rate it is being generated is accelerating. As we head into a future where technology dominates the global market, this pace will only continue accelerate. Businesses and other entities are aware of this data and its power. In a survey taken by Capgemini and the Economist, over 600 global business leaders identified their companies as data driven and identified data analytics as an integral part of their business. Big Data solutions are considered the answer for handling this data converting it into useful information. According to the O'Reilly Radar Team (Big Data Now), Big Data consists of three variables – size, velocity and variety. Data is considered big if conventional systems cannot handle its size. It is not only that size of Big Data that matters, but also the volume of transactions that come with it. The second issue is how fast the data is generated and how fast if it changes (velocity). New data and updated data is constantly generated, and it must be processed and analyzed quickly to create real value for an organization. The final issue is data structure (variety). Data is typically collected in raw form, unstructured, from a variety of sources. To acquire useful information, data needs to be processed...

Words: 2909 - Pages: 12

Premium Essay

Big Data

...era of ‘big data’? Brad Brown, Michael Chui, and James Manyika Radical customization, constant experimentation, and novel business models will be new hallmarks of competition as companies capture and analyze huge volumes of data. Here’s what you should know. The top marketing executive at a sizable US retailer recently found herself perplexed by the sales reports she was getting. A major competitor was steadily gaining market share across a range of profitable segments. Despite a counterpunch that combined online promotions with merchandizing improvements, her company kept losing ground. When the executive convened a group of senior leaders to dig into the competitor’s practices, they found that the challenge ran deeper than they had imagined. The competitor had made massive investments in its ability to collect, integrate, and analyze data from each store and every sales unit and had used this ability to run myriad real-world experiments. At the same time, it had linked this information to suppliers’ databases, making it possible to adjust prices in real time, to reorder hot-selling items automatically, and to shift items from store to store easily. By constantly testing, bundling, synthesizing, and making information instantly available across the organization— from the store floor to the CFO’s office—the rival company had become a different, far nimbler type of business. What this executive team had witnessed first hand was the gamechanging effects of big data. Of course...

Words: 3952 - Pages: 16

Premium Essay

Big Data

...Big Data Big Data and Business Strategy Businesses have come a long way in the way that information is being given to management, from comparing quarter sales all the way down to view how customers interact with the business. With so many new technology’s and new systems emerging, it has now become faster and easier to get any type of information, instead of using, for example, your sales processing system that might not get all the information that a manger might need. This is where big data comes into place with how it interacts with businesses. We can begin with how to explain what big data is and how it is used. Big data is a term used to describe the exponential growth and availability of data for both unstructured and structured systems. Back in 2001, Doug Laney (Gartner) gave a definition that ties in more closely on how big data is managed with a business strategy, which is given as velocity, volume, and variety. Velocity which is explained as how dig data is constantly and rapidly changing within time and how fast companies are able to keep up with in a real time manner. Which sometimes is a challenge to most companies. Volume is increasing also at a high level, especially with the amount of unstructured data streaming from social media such as Facebook. Also including the amount of data being collected from customer information. The final one is variety, which is what some companies also struggle with in handling many varieties of structured and unstructured data...

Words: 1883 - Pages: 8

Premium Essay

Big Data

...Big Data and its Effects on Society Kayla Seifert MGT-311 November 23, 2015 Big Data is a concept that has existed for a while but only gained proper attention a couple of years ago. One can describe Big Data as extremely large data sets that have grown so big that it becomes almost impossible to manage and analyze with traditional data processing tools. Enterprises can use Big Data by building new applications, improving the effectiveness, lowering the costs of their applications, helping with competitive advantage, and increasing customer loyalty. It can also be used in other industries to enable a better system and better decision-making. Big Data has become a valuable asset to everyone around the world and continues to impact society today. The ideology of Big Data first came up in the days before the age of computers, when unstructured data were the norm and analytics was in its infancy. The first Big Data challenge came in the form of the 1880 U.S. census when the information involving about 50 million people being gathered, classified, and reported. This census contained a lot of facts to deal with, however, limited technology was available to organize and manage it. It took over seven years to manually put the data into tables and report on the data. Thanks to Big Data, the 1890 census could be placed on punch cards that could hold about 80 variables. Instead of seven years, the analysis of the data only took six weeks. Big Data allowed the government...

Words: 1697 - Pages: 7

Premium Essay

Big Data

...Big Data/Predictive Analytics First Last Name Name of the Institution Big Data/Predictive Analytics Introduction There has been a controversial debate about the big data and the predictive analytics. With the evolution of technology and innovation, one fact needs to be appreciated that, the concept of the big data and the predictive analytics is here to stay. So it is up to the users to learn to deal with it and manage it to offset any adverse effects that may result. The proponents of the big data argue that the big data is advantageous, and the 21st-century generation benefits more from the big data and predictive analytics than the harm that the big data poses to their lives. The bottom line of the matter, however, is that, big data interferes with human’s privacy, ethics, and any unauthorized third party can access the personal data for evil purposes or their benefits. The definition of the big data takes the “3V” form; High-volume, high-variety and high-velocity information that demand the innovative forms of processing, cost-effective for improved insight and decision making. This technological definition does not encompass the societal aspect and. Therefore, it can be argued to be one-sided definition. To incorporate the societal aspect, the definition needs to be viewed in a broader manner so that the aspect of data analytics can come in. In this regard, the two terms can work together so that a meaning of full terms big data/ data analytics can denote the cloud...

Words: 4196 - Pages: 17