和很多新的信息技术一样,大数据可能会大幅度降低成本,减少完成一项计算任务、推出一款新产品或者新服务所需的执行时间。你希望得到哪些好处呢?大数据背后的技术和理念让组织能够实现很多种目标,但是你不太可能获得所有可能的好处。明确你的组织希望从大数据中得到什么是你应该解决的一个重大问题。对这个问题的答案不仅影响者大数据的产出,还影响着整个过程——谁领导这个计划,它需要同你的组织中的哪些部分结合以及你应当如何管理这个项目等。
如果你希望降低成本,那么你可能已经意识到处理结构化数据的MIPS和TB级的存储由于Hadoop集群之类大数据技术的出现已经便宜很多了。例如,一家公司进行了成本对比,该公司估计是用传统的关系型数据库存储1TB的数据每年大约需要花费37000美元,使用数据设备大约需要花费5000美元,如果使用Hadoop集群的话则只需要花费2000美元。当然,这些数据并不完全是直接的对比,使用传统的技术可能会更为可靠而且更加易于管理。
如果你主要关心的是降低成本,那么你就要考虑用相对简单的方式使用大数据工具。这种项目基本是由IT部门主要根据技术和经济条件完成。你可能会希望让你的一些用户和发起者也参与到讨论这种存储方式在数据管理方面的优势和劣势之中,大概就是这样了。
大数据工具的第二个重要的好处是缩短时间。Macy’s Inc.的定价机制优化应用提供了一个典型的缩短时间的例子,这个应用将复杂或大规模的分析计划所需要的时间减少了几个小时、甚至是几天,把整个过程压缩到几分钟甚至几秒之内。这家连锁商店现在已经能够把优化7300万件商品的价格的时间从超过27小时压缩到不到1小时。软件厂商SAS将其称为“高性能分析”,或者是HPA,HPA让Macy’s能够更加频繁地根据零售市场情况的变化调整商品的售价。这种HPA应用并没有使用Hadoop集群,但是它确实利用了并行计算和驻留内存软件架构。Macy’s还表示该公司将软件成本降低了70%。
如果你的公司感兴趣的主要是缩短时间,你就需要同相关企业的老板紧密配合。关键的问题是你想用流程中节省下来的时间干什么。好的答案包括:
• 我们将能够更频繁地调整、修改模式,以便得到更好的解决方案;
• 我们将使用更多的变量和更多的数据进行计算,为我们的客户提供实时的推荐;
• 我们将能够对于环境中的意外事件更快地做出响应。
坏的答案(至少从严格的商业角度来看)包括能够省出更多的时间玩高尔夫、喝更多的咖啡或者终于有足够的时间吃“三杯马提尼酒”的午餐了。
企业通过大数据能够做的最好的事情就是开发新产品和新服务。在这方面做的最好的公司可能是LinkedIn Corp.,这家公司利用大数据和数据专家开发了大量的产品和功能,包括“你可能认识的人”、“你可能喜欢的群组”、“你可能感兴趣的工作”、“谁看了你的资料”等。通用电气在多个目标中,更侧重于利用大数据提高服务水平,优化服务合同并保持工业产品的间隔;还有很多其他的例子:谷歌公司当然利用大数据来完善其核心的搜索及广告服务算法;Zynga公司利用大数据为客户定位游戏和游戏相关产品;Netflix公司为能够帮助该公司优化为客户推荐电影功能的数据科学团队提供了著名的Netflix奖。测试企业Kaplan利用大数据为客户提供有效学习和测试准备策略的建议。这些公司的大数据应用都直接聚焦于产品、服务和客户的。
事实上,这些都非常有意义。当然,是对于利用大数据和整个过程推动新产品开发的组织来说。显然,你需要同产品开发团队紧密合作,也许还需要和市场营销部门密切配合。也许这些项目是由企业领导者而不是技术人员或者数据专家发起的。你可能不会节省大量的金钱或时间,但是你可能会让你的公司的营收出现明显的增长。
现在能够认同明确你希望通过大数据得到什么是你首先应该利用资源去做的、最重要的事情。