VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > 数据库 > SQL教程 >
  • 入门必读 | Spark 论文导读(2)

最后,有些分布式系统,比如Piccolo, 分布式共享内存(DSM)系统和键值对系统都采取的是共享可变状态集。用户既可以读也可以写入这些共享内存。由于系统状态可变,可被更新,只有依靠checkpoint技术才能保障数据完整性,一致性,因此开销会比Spark多很多。

缓存系统:Nectar 系统可以在任意的 DryadLINQ应用程序之间共享中间数据集,实现的方法是将数据集输出到稳定的存储设备上,而不是内存。并且Nectar也不允许用户倾倒指定的分区,连分区方法也不受用户控制。Ciel和FlumeJava提供结果缓存,但不支持用户自定义缓存内容。

谱系图: 在科学计算和数据库领域,谱系图或源数据管理一直是重点研究对象。一旦数据丢失,从从源头开始重新计算是最慢的一项恢复操作,如果自动修复能从丢失的上一级开始追溯,那是最快的。很多系统能保障断点恢复,但所用的措施却是耗时耗资源最多的构建副本方法。而谱系图在单个MapReduce任务之后,被丢失的无影无踪。

关系型数据库: 在数据库中,视图就像是RDD,物化视图就像是持久化的RDD,但数据库在更新这些对象时,都需要做日志登记的操作,有些类似构建副本的方法,开销巨大。


相关教程