简单问几个问题:
在 MapReduce 范式中,哪些算法类型/类别可以重订? (例如, k- means 具有 MR 执行功能)
有没有不能用这种方式表达的?
何种算法特点使其在MR范式中重新拟订的吸引力较弱/复杂程度较弱
提前感谢任何帮助。
麦克斯
简单问几个问题:
在 MapReduce 范式中,哪些算法类型/类别可以重订? (例如, k- means 具有 MR 执行功能)
有没有不能用这种方式表达的?
何种算法特点使其在MR范式中重新拟订的吸引力较弱/复杂程度较弱
提前感谢任何帮助。
麦克斯
我正在研究同样的问题 收集来自MPI世界的大数据算法
MR 配方的基本管道似乎是扩展/承包。 地图应用于大数据集, 可能创建更大的数据集, 然后将缩放用于对数据集进行排序/组织, 以便将其合并成一个综合数据集, 最好是更小的数据集。 地图数量并减少您所需要的是 MR 算法的智能 。
作为一般的计算方法,你可以解决与MR的任何计算问题,但从实际的角度来看,MR的资源利用偏向于具有高度同时的I/O要求的计算问题。 令人尴尬的平行算法,比如字数算法当然会适合这个帐单,但比起这个帐单,它的范围要广得多,例如,你的K-手段算法是一个限制最小化的问题,没有人会将它归类为令人尴尬的平行,但是仍然有一个有效的MR配方。
我目前的正式框架将分布式计算机系统分为五个属性:
磁盘性能是我仍在努力要清洁整合的东西,因为旋转相对于SSD存储技术具有巨大的性能影响,但只有在SSD通过 PCIe 整合后,才会产生巨大的性能影响。如果通过SAS 或 SATA 整合,那么你就会达到界面限制,而旋转也可以很容易地饱和该界面。在这种情况下,只有SSD的超长长度才能帮助改进性能,但只能使数据记录较小的小数据集受益。因此目前,让我们假设我们有一个真正的大数据问题,需要旋转存储来有效地控制数据成本。
Mapuduce 使用上述分布资源列表进行扩展/ 分包流程: 它使用处理器+ 模莫里+ disk 来执行映射功能, 然后大量依靠网络运行来降低功能。 由于添加服务器将会缩放处理器+模莫里+ disk 资源, 不幸的是, 网络的性能只是小幅提高, 但延时性能却下降。 由于网络延时性能在分布式系统中是一个非常困难的性能特征, 要最小化, MR 算法对带宽中心操作员最为有效: 也就是说, 算法拥有数十亿个小包的独立的算法 。 通勤和连锁属性 Nishant 亮点是一个完美的摘要, 用以确定这些包中排序要求的算法类别非常简化, 因此简单的排队操作员就足够了 。
I am looking for insights in whether or not there exist efficient MR algorithms for PDE solvers and optimization algorithms, such as integer programming. Found a great graphic from the folks that are doing FutureGrid:
Map Slow 范式最适合于“ 混杂平行” 的问题, 即两个任务之间没有任何依赖性。 请查看< a href=' http:// en.wikipedia. org/ wiki/ Embarrassingly_parallel rel = “ nofollow” > Ebarrasingly平行 a> 关于维基百科的文章 。
此外,如果操作是通货或联运,则可以很容易地优化 " 地图降价 " 方案,以取得更好的业绩。
If I have an algorithm which is comprised of (let s say) three sub-algorithms, all with different O() characteristics, e.g.: algorithm A: O(n) algorithm B: O(log(n)) algorithm C: O(n log(n)) How do ...
I m using Electro in Lua for some 3D simulations, and I m running in to something of a mathematical/algorithmic/physics snag. I m trying to figure out how I would find the "spin" of a sphere of a ...
There s a (relatively) new sort on the block called Timsort. It s been used as Python s list.sort, and is now going to be the new Array.sort in Java 7. There s some documentation and a tiny Wikipedia ...
As a learning experience I recently tried implementing Quicksort with 3 way partitioning in C#. Apart from needing to add an extra range check on the left/right variables before the recursive call, ...
Given a 10 digit Telephone Number, we have to print all possible strings created from that. The mapping of the numbers is the one as exactly on a phone s keypad. i.e. for 1,0-> No Letter for 2->...
I have a directed graph and my problem is to enumerate all the minimal (cycles that cannot be constructed as the union of other cycles) directed cycles of this graph. This is different from what the ...
Given an array of integers arr = [5, 6, 1]. When we construct a BST with this input in the same order, we will have "5" as root, "6" as the right child and "1" as left child. Now if our input is ...
I was trying to speed up a certain routine in an application, and my profiler, AQTime, identified one method in particular as a bottleneck. The method has been with us for years, and is part of a "...