V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cnmusa
V2EX  ›  问与答

做数据分析 求思路和软件

  •  
  •   cnmusa · 2016-02-29 09:02:19 +08:00 · 1666 次点击
    这是一个创建于 3226 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在做数据分析 数据导出的 原始文件是 txt 文档
    分析的是文档内的一些重复数据 以及数据归类筛选 以及高亮显示
    求思路和软件 感谢

    16 条回复    2016-03-02 15:27:54 +08:00
    imn1
        1
    imn1  
       2016-02-29 09:38:22 +08:00
    没搞清你的目的,你说的需求,大部分统计软件 /工具 /语言都能做
    lhbc
        2
    lhbc  
       2016-02-29 09:41:47 +08:00 via Android   ❤️ 1
    目的不明,需求不明,估计不懂编程语言。
    只能推荐 Excel 或者 SPSS 了。
    cnmusa
        3
    cnmusa  
    OP
       2016-02-29 09:47:07 +08:00 via Android
    @imn1
    txt 文件 里面数据比较杂乱 不好分析 其实目的很简单 就是 txt 数据 归类 筛选 高亮
    xujunfu
        4
    xujunfu  
       2016-02-29 09:49:26 +08:00   ❤️ 1
    PANDAS
    imn1
        5
    imn1  
       2016-02-29 09:56:27 +08:00   ❤️ 1
    如果 txt 格式化,要么 2L ,要么 python+pandas
    如果没有格式,用正则先理顺
    cnmusa
        6
    cnmusa  
    OP
       2016-02-29 10:21:35 +08:00 via Android
    @imn1 txt 有格式 但是排序比较乱 有一些软件导入也能自动排序 但是这些软件不太会用

    原始数据软件上是有各种数据分类的 但是导出成 txt 数据就有点乱 不是像 Excel 一样 条目清晰 现在求助的第一步就是导入 txt 先对 txt 文件做出初步清理归类和筛选 最好是能自动处理的 而且操作简明方便的

    然后得到一个比较清晰的数据文件后 再来根据数据的归类 分析 统计 高亮什么的 感谢回复!!
    cnmusa
        7
    cnmusa  
    OP
       2016-02-29 10:26:22 +08:00 via Android
    @xujunfu 刚刚看了下 PANDAS 感觉太专业了 其实用不到这么专业的 最好是傻瓜式的 都是最基础的数据分析统计 没有那么高深复杂
    lhbc
        8
    lhbc  
       2016-02-29 10:42:48 +08:00 via Android
    洗数据, Excel 和 SPSS 也能做,自动化也行
    无论什么工具,具体清洗规则只能自己写了
    一定条件下,甚至随便一个支持正则的工具都能洗
    cnmusa
        9
    cnmusa  
    OP
       2016-02-29 11:02:20 +08:00 via Android
    @lhbc 我刚刚试了一下 直接用 Excel 导入 数据很乱 有没有傻瓜一点的 方法
    nevin47
        10
    nevin47  
       2016-02-29 11:23:29 +08:00
    Excel 的导入还是很强大的吧,可以自定各种格式。更傻瓜的方法应该很难再找了
    LZ 可以的话把数据截一部分上来,大家需要看看究竟是什么样子的,才能给提出合适的建议
    yanyanlong
        11
    yanyanlong  
       2016-02-29 11:23:33 +08:00
    python+pandas 这是最简单的..
    lhbc
        12
    lhbc  
       2016-02-29 12:18:33 +08:00
    @cnmusa 数据的分隔是不是有规律的?比如 csv 或者固定的分隔符
    导入之后自己做清洗即可

    看样子你的数据来源不是很规范,用 GUI 软件,肉眼观察过滤是最好的
    如果能统计出固定的规律,用 Python 或者 shell script, VBA 都能自动化整理数据了

    然后才是数据分析,图形化的 Excel, SPSS 或者用 Python, R 写点代码都能满足
    cnmusa
        13
    cnmusa  
    OP
       2016-03-01 07:55:47 +08:00
    @yanyanlong 哥呀 楼主不是程序员 就是普通的小职员 想做一点数据统计和分析呀 刚刚搜索了一下 python 好复杂呀 什么程序 函数什么的 眼睛都花了
    googlefans
        14
    googlefans  
       2016-03-01 22:14:51 +08:00
    R
    yanyanlong
        15
    yanyanlong  
       2016-03-02 14:54:49 +08:00
    @cnmusa http://shujuguan.cn/ 非敏感数据的话,可以试试这种在线数据分析工具
    cnmusa
        16
    cnmusa  
    OP
       2016-03-02 15:27:54 +08:00 via Android
    @googlefans 敏感数据
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1080 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 18:10 · PVG 02:10 · LAX 10:10 · JFK 13:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.