解锁您的数据像我们许多人一样

您最近几周可能去购物并最终得到了一些纸质收据。当你回到家时,你会小心地将收据压平,并根据你的个人预算分类将它们放在不同的文件夹中,还是将它们扔成一堆以便稍后查看是否需要换货或退货?如果您是在线商家,您知道在购物者将一些商品放入购物篮后应向他们推荐哪些产品吗?如果您找不到商品,您知道买家替换了哪些商品吗?您能否跟踪购物车中添加和删除的商品,以便对您的产品做出数据驱动的决策?身体形象解锁您的数据企业数据管理历来就像一个人回家后仔细保存杂货收据,以便他们的预算跟踪和归档系统保持活动状态。同样,在线商家可以仅存储最终购买的商品的记录。结构化数据和关系数据库旨在准确支持这些用例。我们提前为当前业务案例设计数据模式,管理和验证传入数据,并存储与我们的主设计一致的信息。在我之前的文章以不同的方式思考数据中,我们研究了数据加速业务增长的潜力。随着小型和大型企业都转向来自不同来源的大规模数据,提前设计数据模式既不实际也不可取。

就像将购物收据保存在

一堆以供以后使用一样,我们希望立即捕获数据,但不知道所有用例、报告要求或该数据的最佳关系模型。在本文中,我们将分析数据管理和处理的概念,以加深我们对它们的了解。数据摄取“非结构化数据”这个术语被广泛使用,尽管我认为它并没有真正捕捉 巴西电话号码 到数据仓库如何发展的细微差别。非结构化数据并不意味着一堆难以理解的字符。每个数据都有一个结构。来自源系统或物联网设备的数据流将随着时间的推移以一致的格式提供数据。更好的术语可能是“未解释的数据”,因为它清楚地表明我们在存储数据之前不会解释或转换数据,并且它留下了数据结构级别的问题。传入数据将符合源系统固有的模式。但是,我们不强加目的地或存储方案。让我们考虑一叠商店收据。尽管它们包含有关商品、价格和付款方式的基本相同信息,但它们将具有不同的格式和文本布局。传统的结构化存储将导致这样的设计:分析每张收据并将各个数据存储在关系数据库中。诸如购买时间、店员姓名和商店位置等购买元数据将被丢弃。为了确保您可以利用数据的潜在价值,您应该以其原始形式存储数据,以避免假设哪些数据子集可能有价值或没有价值。除了数据本身之外,存储元数据对于为未来用户提供更广泛的上下文也很重要。

电话号码

元数据可以包括接收信息的日期

源系统标识符以及接收到的数据的模式。该元数据将提供在处理数据时正确解释数据所需的信息。身体形象解锁您的数据存储概念大数据是一个广泛使用的术语,但对于什么是“大”并没有明确的定义。对于某些组织来说,几的数据可能意味着其历史存储需求的显着增加。其他公司向开发人员分发数的存储空间,就像万圣节的糖果一样。大数据的概念与数据本身 香港电话号码表 的大小关系不大,而与数据的类型及其存储方式关系更大。数据摄取规划应侧重于选择可扩展以满足您预期的多年需求的解决方案。尽管大多数传统数据库引擎和关系模型可以针对较小的组织进行扩展,但由于集中式数据库引擎以及以结构化方式组织和索引数据的需要,它们很快就达到了极限。底层存储可以支持显着增长,但摄取和处理速率有限。数据仓库是一种流行的方法,可以根据特定的业务案例为更广泛的用户群整理数据。许多用户都可以访问这种结构化和整理的数据,并且可以通过现有工具轻松使用以满足特定信息需求。它并不是为了以灵活的方式满足未来的需求而设计的。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注