番茄代理吧 关注:15贴子:100
  • 0回复贴,共1

大数据存储管理的一些大技巧

只看楼主收藏回复

数据本地化的目的是确保大型数据集存储在计算节点附近,以便于分析。对于Hadoop,这意味着管理数据节点并向MapReduce提供存储,以完全执行分析。该方法实用有效,但也存在大数据存储集群独立运行的问题。下面是在Hadoop环境中管理大数据存储的十个技巧。
1。分布式存储
传统的集中存储已经存在一段时间了。但是大数据并不适合集中式存储体系结构。Hadoop旨在使计算更接近数据节点,并使用HDFS文件系统的大规模横向扩展能力。
虽然Hadoop在San上存储数据的效率很低,但Hadoop本身的数据存储效率很低。但也造成了自身性能和规模的瓶颈。现在,如果您通过一个集中的San处理器来处理所有数据,这与Hadoop的分布式和并行性背道而驰。您可以为不同的数据节点管理多个San,也可以将所有数据节点集中到一个San中。
但是,Hadoop是一个分布式应用程序,应该在分布式存储上运行。这样,存储就保持了Hadoop本身的灵活性。然而,它还需要采用软件定义的存储方案并在商业服务器上运行,这自然比瓶颈Hadoop更高效。
2。Hyper fusion vs distributed
注意:不要将hyperfusion与distributed混淆。有些超融合方案是分布式存储,但通常这一术语意味着您的应用程序和存储存储存储在同一个计算节点上。这是为了解决数据本地化的问题,但这会导致太多的资源争用。这个Hadoop应用程序和存储平台将竞争相同的内存和CPU。Hadoop运行在专有应用层,分布式存储运行在专有存储层,这样会更好。然后,利用缓存和分层技术解决数据定位问题,弥补网络性能损失。
3。避免控制器瓶颈
实现目标的一个重要方面是避免通过单个点(如传统控制器)处理数据。相反,为了保证并行存储平台的性能,可以显著提高性能。
此外,该方案提供了增量可扩展性。向数据湖添加功能就像在里面放一台x86服务器一样简单。分布式存储平台将自动添加功能并在必要时重新调整数据。
4。Delete duplicate and compress
掌握大数据的关键是Delete duplicate and compress技术。一般来说,大数据集的数据简化率为70%-90%。在Pb容量方面,它可以节省数万美元的磁盘成本。现代平台提供了内联(与后处理相比)冗余和压缩,大大降低了存储数据所需的容量。
5。合并Hadoop发行版
许多大型企业都有多个Hadoop发行版。可能是开发人员需要它,或者企业部门已经适应了不同的版本。在任何情况下,经常需要维护和操作这些集群。一旦大量数据真正开始影响企业,多个Hadoop分布存储将导致效率低下。我们可以通过创建一个单一的、可伸缩和压缩的数据湖
6来实现数据效率。虚拟化Hadoop
虚拟化已席卷企业市场。现在,许多地区80%以上的物理服务器都实现了虚拟化。但是,仍然有许多企业因为性能和数据本地化问题而不谈论虚拟化Hadoop。
7。创建弹性数据湖
创建数据库并不容易,但可能需要大数据存储。有很多方法可以做到这一点,但是哪一个是正确的呢?正确的体系结构应该是一个动态的、灵活的数据库,它可以以各种格式(架构的、非结构化的、半结构化的)存储所有资源的数据。更重要的是,它不是在本地资源上实现的,而是在资源上实现的。
不幸的是,传统的体系结构和应用程序(即非分布式的)并不令人满意。随着数据集变得越来越大,不可避免地要将应用程序迁移到数据中,而且由于延迟太长,它无法反转。
理想的data Lake基础设施将实现数据的单拷贝存储,一些应用程序可以在单个数据资源上执行,而不需要迁移数据或复制
8。集成分析
analysis并不是一个新的功能,它在传统的RDBMS环境中已经存在了很多年。区别在于开源应用程序的出现,以及整合数据库表单和社交媒体、非结构化数据资源(如Wikipedia)的能力。关键在于能够将多种数据类型和格式集成到一个标准中,这有助于实现更简单、更一致的可视化和报告。正确的工具对于分析商业智能项目的成功也至关重要。
9。当大数据遇到大视频
大数据存储问题时,人们已经有点乱了,现在出现了大视频现象。例如,企业越来越多地将视频监控用于安全性、运营和工业效率、简化流量管理、支持法规遵从性和其他一些用例。在很短的时间内,这些资源将产生大量的内容,许多必须处理的内容。如果没有专业的存储解决方案,很可能会出现视频丢失和质量下降。


1楼2020-12-08 21:56回复