V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hiouyuu
V2EX  ›  Hadoop

请教: hadoop 不会将大表格分割为 block

  •  
  •   hiouyuu · 2019-09-27 09:02:45 +08:00 · 3549 次点击
    这是一个创建于 1666 天前的主题,其中的信息可能已经有所发展或是发生改变。
    不是 dba,只是用户。

    我之前使用的集群,在 sqoop 导入、create、insert 等操作,都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时,永远是在原文件上 append,导致文件越来越大,hdfs dfs ls 查看到表格仅由单个文件组成,个别表格文件大小甚至可能超过数十 GB。

    我个人也不知道是否因为这个原因导致速度非常差。

    请问是否有配置需要修改?有没有可能对现有表格进行分割?
    3 条回复    2019-09-27 11:09:20 +08:00
    suixn
        1
    suixn  
       2019-09-27 09:41:41 +08:00   ❤️ 1
    dfs.block.size 设置的多大?
    id4alex
        2
    id4alex  
       2019-09-27 09:45:07 +08:00   ❤️ 1
    你在 hdfs 上看到一个文件, 底层是多个 block 分布在不同节点.
    hiouyuu
        3
    hiouyuu  
    OP
       2019-09-27 11:09:20 +08:00
    谢谢两位,发现文件的确是分割为 blocks 了。

    这样看起来速度慢仍然是需要靠分区来搞定,我回头和 DBA 那边说说吧。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1087 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 549ms · UTC 23:23 · PVG 07:23 · LAX 16:23 · JFK 19:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.