V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ZhiboX
V2EX  ›  自然语言处理

主题模型使用经验

  •  
  •   ZhiboX · 2020-07-24 15:31:06 +08:00 · 5545 次点击
    这是一个创建于 1588 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近学术圈和工业界都玩变形金刚和注意力都很开心,时不时的还搞个不大不小的新闻。不过说到具体真的用起来,不是所有的 transformer 都能直接应用到所有场合。Topic Models 也有很久了,其实结果很惊艳的。只是大家都去做深度学习,没有太多实用化的推进。之前也看过腾讯内部有改进主题模型,不过那个算是企业内部模型,不开源,接触到的人很少。

    前几天发现了一个叫做 TopSBM 的模型,2018 年发表的。将网络分析和主题模型结合在一起,彻底抛去了那个奇怪的 Dirichlet 先验分布,所以拟合出来的主题效果很好。在公司的数据上跑了一下,好到惊艳。下面总结一下自己使用主题模型的经验。

    • 如果不知道主题数,那么用 TopSBM 。
    • 如果知道了主题数,而且知道了每个主题中需要包括哪几个词,用 CorEX,也就是 anchored topic models.
    • 两者结合也是个不错的主意。

    虽然说 TopSBM 是一个特别好的模型,但是也是一个主题模型,纯 CPU 计算,数据量一上来就特别特别慢。在大概 11K 文档上跑了接近 9 个小时才跑出来结果。

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1037 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:41 · PVG 04:41 · LAX 12:41 · JFK 15:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.