V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
changwei
V2EX  ›  问与答

请问一下微博和百度贴吧的热门话题排行榜是如何生成的?

  •  
  •   changwei · 2016-10-19 12:43:31 +08:00 · 1674 次点击
    这是一个创建于 2962 天前的主题,其中的信息可能已经有所发展或是发生改变。

    微博和贴吧都是国内数一数二的 PHP 构建的高并发网站,请问他们的这个热门话题排行榜是如何得出的?我目前只想得到用中文分词库对全站内容分词和统计,但是这类高并发网站每天都是成千上亿的数据产出,用分词的话如何是如果解决效率问题的?或者他们还用了其他什么技术?

    原题地址: https://segmentfault.com/q/1010000007208032

    7 条回复    2016-10-19 18:47:54 +08:00
    hshpy
        1
    hshpy  
       2016-10-19 12:48:36 +08:00
    给钱的,强制输送,不说了都是套路
    Quaintjade
        2
    Quaintjade  
       2016-10-19 12:57:58 +08:00 via Android
    有的是塞钱的,有的是管理员手动添加的。只不过是针对已知词组进行统计。

    倒是搜索引擎的搜索词趋势报告可能涉及分词。
    ibufu
        3
    ibufu  
       2016-10-19 14:08:52 +08:00
    题主是不是很失望
    murmur
        4
    murmur  
       2016-10-19 14:11:16 +08:00
    我猜 80%是给钱推广的 20%是真的热点 毕竟那种党和国家的大事都要给钱推广 新浪估计要关门了
    cnZary
        5
    cnZary  
       2016-10-19 15:42:27 +08:00
    用钱生成的
    sensui7
        6
    sensui7  
       2016-10-19 17:32:16 +08:00
    你还以为是算法生成的? 乃衣服啊, 无利不起早, 国内凡是各种排行榜, 热门推荐都是........
    kaneg
        7
    kaneg  
       2016-10-19 18:47:54 +08:00 via iPhone
    本以为是个技术问题,实际却是个商业问题
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5579 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:47 · PVG 14:47 · LAX 22:47 · JFK 01:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.