这个问题的答案是肯定的。大数据项目中的数据绝对可能过多。
发生这种情况的方式有很多种,出于多种原因,专业人士需要以多种方式限制和管理数据以获得正确的结果。(阅读关于大数据的 10 个大神话。)
一般来说,专家们谈论区分模型中的“信号”和“噪声”。换句话说,在大数据的海洋中,相关的洞察数据变得难以定位。在某些情况下,您就像大海捞针。
例如,假设一家公司正在尝试使用大数据来生成有关部分客户群及其在特定时间范围内的购买情况的特定见解。(阅读大数据有什么作用?)
获取大量数据资产可能会导致获取不相关的随机数据,甚至可能产生一种偏差,使数据向一个方向或另一个方向倾斜。
它还大大减慢了这个过程,因为计算系统必须处理越来越大的数据集。
在如此众多不同类型的项目中,数据工程师将数据整理为受限且特定的数据集非常重要 - 在上述情况下,这将仅是正在研究的那部分客户的数据,仅是当时的数据正在研究的框架,以及一种清除可能混淆事物或减慢系统速度的额外标识符或背景信息的方法。(阅读工作角色:数据工程师。)
有关更多信息,让我们看看它在机器学习前沿是如何工作的。(阅读机器学习 101。)
机器学习专家谈论一种称为“过度拟合”的现象,即当机器学习程序对新的生产数据放宽时,过于复杂的模型会导致效果较差。
当一组复杂的数据点与初始训练集太匹配并且不允许程序轻松适应新数据时,就会发生过度拟合。
现在从技术上来说,过拟合并不是由于存在过多的数据样本而引起的,而是由于过多的数据点的加冕而引起的。但您可能会说,拥有太多数据也可能是导致此类问题的一个因素。处理维数灾难涉及到一些与早期大数据项目中相同的技术,当时专业人士试图查明他们向 IT 系统提供的内容。
最重要的是,大数据可以给公司带来巨大帮助,也可能成为一个重大挑战。一方面是公司是否拥有正确的数据。专家知道,简单地将所有数据资产转储到漏斗中并以这种方式提出见解是不可取的 - 在新的云原生和复杂的数据系统中,需要努力控制、管理和整理数据,以便获得更准确和更准确的数据。有效利用数据资产。
上一篇我们送上的文章是
顶尖企业如何有效地将物联网应用到他们的 BI 战略中? , _!在下一篇继续做详细介绍,如需了解更多,请持续关注。
本文由
日本NEC锂电池中国营销中心于2023-07-16 17:40:14 整理发布。
转载请注明出处.