最新新闻:
  • 一文让你分清数据管理与数据治理
  • 一份更好的云灾难恢复计划指南
  • 机器学习已经悄悄潜入你的生活,你可能还没有发现
  • 为什么人工智能可以下好围棋却写不好诗?答案在这
  • 启动大数据项目之前需要问的5个问题
  • 数据高端人才十一项全球最具权威的大数据资质认证
  • 云技能黑带:点评十大顶级云计算认证
  • 为什么大数据工程师会在2017年越过越滋润?
  • “新零售”的新能力
  • 关于“大数据”的15条干货思考
  • 如何设计成功而有价值的数据可视化
  • 论数据中心德赢官网vwin工作的提升技巧
  • 数据中心网络布线工程必备七大件
  • 网络钓鱼进化之路
  • 为什么我们不能再过度依赖网关了?
  • 对象存储九大关键特征
  • 人工智能会统治世界吗?马克思早就给出了回答
  • 企业如何实现互联网+业务与IT的融合
  • PaaS是位好同志,但SaaS公司搞PaaS却不大靠谱
  • 如何构建一个私有存储云
  • 这是网络安全的基石:密码学2016大盘点
  • 为何企业无法从数据科学中真正获得价值?
  • 云灾难恢复服务:客户想要“DR即服务”
  • 展望2017年:这些技术将冲击我们的生活
  • 2017年云计算和数据中心五大趋势
  • 年关将至,历数今年悲催的宕机灾难
  • 2017科技行业七大趋势:无人机远途送货 5G测试全面
  • 又到年终,看九大企业技术趋势
  • CIO们的2017——5大领域4个技术将遭遇颠覆
  • 大数据失败案例提醒:8个不能犯的错误
  • CIO:IT从德赢官网vwin到运营
  • 面对网络边界的迷失?在虚拟环境获得真实可视性是
  • 马云乌镇演讲实录:未来30年是谁的天下?
  • AI技术大力冲击就业市场 哪些工作将被自动化取代?
  • 2016热门数据存储技术
  • CIO:淘汰你的不是新技术,而是旧思维
  • 如何成为数据分析师
  • 十大IT工作和工程
  • 三大恶意软件的绝密藏身之地:固件、控制器与BIOS
  • 网络与应用基础设施如何协同发展
  • 云端迁移需注意的9大要点
  • 成功的安全分析你需要注意这五个要素
  • 没有IT流程文档 企业将为IT所“绑架”
  • 网络安全:要通过去,晓未来
  • 让IT安全人员夜不能寐的11个数据问题
  • 人工智能、机器学习、深度学习的区别在哪?
  • 如何让云德赢官网vwin变得简单
  • 互联网下半场战争已打响 谁会成为下一个超级独角兽
  • 奥运看完看什么?这里有关于奥运背后的大数据
  • 思科第四财季净利同比增21% 宣布裁员5500人
  • 数据中心网络德赢官网vwin一指禅
  • 数据中心虚拟化所必备的条件
  • 技术分享:十大服务器虚拟化优化窍门揭秘
  • 国内最适宜建设数据中心地区,原来在这里
  • 智能时代:物联网10个商业模式
  • 传统咨询业必死,拥抱大数据才是未来
  • 微软纳德拉:自然语言对话将淘汰菜单 成为APP用户
  • 解密 Uber 数据团队的基础数据架构优化之路
  • 大数据挖掘价值在哪里?
  • 物联网未来十年将重构这八大行业
  • 中国CIO肩负三大任务
  • CIO:云计算数据中心德赢官网vwin管理要点
  • 云计算:如何辨识真正的云业务
  • 如何看待互联网时代的网络金融安全?
  • “互联网+”的数据地图:沟壑的显现与超车的可能
  • 大数据与统计新思维
  • AT&T如何成为美国物联网市场老大?
  • 全球大数据发展呈现六大趋势
  • 传统企业将向大规模定制转型升级
  • 云计算市场未来将会是谁的天下?
  • 凯文·凯利:大数据时代没有旁观者
  • IaaS市场大整合:云用户喜忧参半
  • 大牛数据分析师养成日记
  • 一大波威胁报告来袭,我们从中能get到什么?
  • 如何建立各部门都满意的影子IT战略
  • 我经历的IT公司面试及离职感受
  • 恶意软件逃避反病毒引擎的几个新方法
  • 德赢官网vwin好数据中心的四大法宝
  • 云管理成功的关键:应用工作流
  • 豪车虚拟钥匙虽然很炫酷 但也给了黑客机会
  • 数据中心业务迁移面临的五大挑战
  • 在你想不到的暗网上,黑客雇佣市场正蓬勃发展
  • 12年程序员职业生涯得到的12个经验教训
  • 人人都谈大数据,你考虑过小数据的感受吗?
  • 作为数据科学家应该知道的11件事
  • 提高攻击成本的“网络安全检查表”有多牛?
  • 确保AWS安全:避免犯常见错误
  • 从菜鸟成为数据科学家的 9步养成方案
  • 数据分析工作常见的七种错误及规避技巧
  • 分析信息化现状 企业IT规划成关键
  • 这些数据科学技能,才是老板们最想要的
  • 职业生涯提升计划:迈入数据科学新世界
  • 你get了无数技能,为什么一事无成
  • 【概念】IT德赢官网vwin服务的概念与维保的区别
  • 见招拆招 六招抓住代维违规“黑手”
  • 数据中心德赢官网vwin工作的提升技巧
  • 如何做好高效IT德赢官网vwin
  • 高效能人士的七个习惯
  • 云计算如何改变IT德赢官网vwin管理的未来
  • 如何做好IT德赢官网vwin管理
  • 如何做好大型数据中心的德赢官网vwin
  • 有效的项目管理(三)
  • 有效的项目管理(二)
  • 2016年的十大技术趋势
  • 有效的项目管理(一)
  • 新浪创业&IT桔子盘点:2015年创业格局盘点上篇
  • 微软将在下周一口气停止对IE8 IE9和IE10的支持
  • 七字诀,不再憋屈的德赢官网vwin
  • 高效数据中心德赢官网vwin团队的7个习惯
  • 联通电信合并 促进竞争还是加强垄断?
  • 智能家居是CES重头戏 但物联网通信才是关键
  • 山东vwin德赢app下载恭祝大家元旦快乐
  • 杨元庆:应尽快出台个人信息保护法
  • IBM称不会放弃硬件业务
  • 习近平:把我国从网络大国建设成为网络强国
  • 传IBM启动新一轮裁员:至少波及1.3万人
  • 甲骨文与IBM纷纷展开并购 云计算倒逼转型加速
  • vwin德赢app下载公司恭祝大家新春快乐
  • vwin德赢app下载公司开通全国统一客服电话4008531853
  • vwin德赢app下载公司正式开通新浪企业微博
  • vwin德赢app下载微信订阅号正式上线
  • 山东vwin德赢app下载网络技术有限公司成功签约山东联通Sybase
  • 云计算战争中国开打:国际巨头落地公有云
  • 虚拟运营带给中国通信业的六个变化
  • 英特尔将推出15核服务器芯片
  • 4G发牌深入分析:移动互联网公司受益最大
  • 英将发报告“积极评价”华为 解除“安全警报”
  • 电子卖场衰落谋转型:IT+美食+时尚成趋势
  • 数据显示Win8全球市场份额继续下滑
  • 高交会风向:科技“恋不上”资本
  • 山东vwin德赢app下载网络技术有限公司成功中标济南移动服务器
  • 山东vwin德赢app下载网络技术有限公司顺利通过一般纳税人认定
  • 山东vwin德赢app下载网络技术有限公司正式开通官方网站
  • 为何企业无法从数据科学中真正获得价值?
    作者:九次方大数据  来源:九次方大数据  发表时间:2017-1-10  点击:1168

    当今企业拥有越来越多的数据,但这些数据并没有完全被转化成可操作的信息。在过去的几年里,我和我的MIT调查小组一直在寻找一个基本问题的答案:如何让企业通过机器学习,将蕴藏于其数据储存内的潜能全部释放出来。

    当我们与不同行业的合作伙伴一起设计基于机器学习的解决方案时,我们发现已有的解决方案通常情况下是不适合的,这是为什么呢?

      首先,每当我们问到机器学习专家们(专长于预测模型训练和测试的数据科学家们),在工作中最困难的部分,被一次次提及的答案是——“数据杂乱无章”。一开始,从字面意思上理解,我们认为这是一个经典的数据问题——数据缺失或者数据库之间缺乏一致性。随着我们的进一步挖掘,我们意识到该问题和经典的数据问题略有不同,两者面临的数据形式有一定的区别。企业的原始数据(Rawdata),甚至是干净数据(Cleandata:在Rawdata的基础上,进一步处理后得到的数据)量多且复杂,即使是专家,第一眼也很难理解这些数据。因为这样的数据有太多的数据表和字段,同时数据的粒度又非常高(例如,在线点击流每一次点击都会生成新数据、传感器每秒会进行125次的数据收集)。而机器学习专家们通常习惯使用聚合过后的,有用的数据,例如一个用户访问过的网站数目,而不是用户在某个网站上的行为数据表。

      与此同时,我们经常听到商业专家抱怨“我们有大量的数据,但没有通过这些数据做成任何事”。更深入的调查显示这种说法也不完全对。而这种挫败感主要来源于两个方面。

      一方面是由于时间问题。由于机器学习中,理解、规划及处理数据等一系列过程所需要花费的时间,机器学习专家常常更加关注流程的后面部分——尝试不同的模型或者在问题制定完成后,调整模型参数,而不是针对不同的商业问题制定新的预测模型。因此,当商业专家想到某个新的问题时,机器学习专家无法做到总是及时跟上他们的步伐。

      另一方面,经常来说,机器学习专家并没有围绕着“产生商业价值”,这一建模的最终目标,来展开工作。在大部分情况下,预测模型旨在提高效率、增加收益或者减少支出。但实际上,建立模型的工作者却很少问这样的问题“这个预测模型提供的价值是什么?我们又该如何去量化其价值?”。思考这一价值导向的问题常常会改变最初的问题规划(problemformulation),通常情况下比建模后期再进行过程调整更加有用。最近在一个机器学习爱好者小组中,我向约150名观众进行了调查,当问到“有多人建立过机器学习模型?”大约有三分之一的人举了手。紧接着,当我问到“有多少人真正应用自己建立的模型产生价值,并量化模型产出价值?”时,所有人的手都放下了。

      换句话说,机器学习专家更倾向于将时间花在构建模型上,而不是处理海量数据集或者将商业问题转化为预测问题。无独有偶,当前的技术环境,无论是商业还是学术,关注点都在实现更加复杂的模型(LVM潜变量模型)、模型学习算法(分布式计算),或者微调(贝叶斯优化)。本质上,这些都属于数据科学项目后期的过程。然而,按照我们的经验,我们认为这些关注点并不是最恰当的。

      如果公司想要从数据中获得价值,需要将重点放在加速对数据的人为理解,在短时间内调整可构建的模型问题数量以及预测这些模型所的成效。在与公司的合作中,我们得出结论,想要通过机器学习带来真正的改变,需要将重点放在以下四个方面:

      坚持简单的模型

      简单的模型,例如逻辑回归、基于随机森林或者决策树的模型。这些模型已经足够解决手头上的任务。关键是减少数据采集时间,尽早进行第一个简单预测模型的开发。

      探索更多的问题

      数据科学家需要有能够快速而简单的定义和探索多个预测模型的能力。公司应该探索更多的商业问题,为每一个商业问题建立一个简单的预测模型,并评估其价值,而不是用超级复杂的机器学习模型去探索仅仅一个商业问题。

      从数据样本中而不是全部的数据中学习

      不要过多的关注如何使用分布式计算让任何一个处理模型都能进行大数据处理,而是在能够从子样本数据中导出相似结论的技术上进行投资。规避大量计算资源的使用,将会给予我们更多的空间去探索更多的假设。

      关注自动化

      为减少第一个预测模型产生的时间和加快探索的速度,公司必须能够自动化处理在正常情况下需要人工完成的过程。通过在不同数据问题上的反复探索,我们发现很多时候都在使用相似的数据处理技术,无论是将数据转化为有用的聚合数据,还是为预测模型准备数据。是时候流水线化这些任务,开发算法和软件,使这些过程能够自动化完成。

      专注于上述四个目标,准确理解数据科学家如何与数据交互,以及项目瓶颈之所在,帮助我们成功启动了MIT的“TheHuman-DataInteractionProject”项目。

      我们的目标是快速探索预测模型,并将这些模型应用于解决真实企业中的实际问题。这些模型简单,同时自动化让非专业的用户也能够在几个小时内建立成百甚至上千个预测模型。而这在今天,通常需要花费专家们一整个月的时间才能做到。文章来源于网络,版权归原作者所有.如果侵犯了您的权益,请来信告知,我们会尽快处理)

    获取更多专业资讯

    微信扫一扫

    服务项目

    维保德赢官网vwin服务

    信息系统集成服务

    机房搬迁服务

     
     
     
     
    电话:
    0531-88818533
    客服QQ
    2061058957
    1905215487