集群直接加载hdfs文件namenode会不会成为瓶颈
warning:
这篇文章距离上次修改已过1630天,其中的内容可能已经有所变动。
问题描述:
8a集群支持hdfs文件的直接加载,在加载配置中,hdfs数据源是通过hadoop的namenode节点来获取数据的,因为hadoop只有两个namenode(standby方式),是否存在因为只有一个namenode节点提供数据而导致的加载瓶颈问题?
解决方案:
8a集群直接加载hdfs数据源时,url指定为hadoop的namenode节点,通过namenode节点获取待加载数据的uri路径,然后根据uri路径从各hadoop的datanode直接读取数据,而不用将数据汇总到nemenode节点再提供给8a集群加载。即,hadoop的namenode节点只提供hadoop中数据的元信息,不会造成加载时的网络瓶颈。