V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
zzjcool
V2EX  ›  分享创造

分享一份采集了一年的数据

  •  1
     
  •   zzjcool · 26 天前 · 1614 次点击

    背景

    每天摸鱼就是刷刷知乎还有微博,但是随着国内内容站的质量下滑,以及作恶,强制下载客户端查看,所以渐渐的不想打开这些软件,慢慢的每天就只看一下热榜,追一下热点新闻,所以就想提升效率,做个页面直接查看微博和知乎的热榜。市场上现有的热榜网页有很多,但是都没有符合我的需求:

    1. 可以一个页面查看我需要站点的热门榜单
    2. 可以看到热门的趋势图
    3. 有极速上升的热点,能主动及时通知我
    4. 可以对每日、每周、每月的热点自定义生成总结报告
    5. 手机端友好

    所以我自己写了个网页:

    https://huoju.info/

    但是,近一年工作、生活上有很多事情,上面的需求基本没有完成,不过数据已经采集了近一年了,不想让这数据浪费,所以分享出来。

    数据应用

    目前只是做了趋势的展示

    比如今天知乎关于大 A 的提问 https://www.zhihu.com/question/788585736

    查看热点趋势: https://huoju.info/hot/zhihu/788585736

    可以看到 12:30 左右有一个明显的断崖,这种就是被限流的问题。

    还有很多有意思的使用方式,但是个人精力有限,所以一直没有搞。

    想交流的伙伴可以邮箱 [email protected] 联系

    Release

    https://github.com/zzjcool/huoju-data/releases

    数据库文档

    表: HotType

    用途: 存储热榜类型的基本信息。

    字段名 数据类型 索引 注释
    id bigint primary key 主键
    type_name varchar(16) unique index 站点名称
    refresh_time int 刷新时间

    表: Hot

    用途: 存储具体的热榜条目。

    字段名 数据类型 索引 注释
    id bigint primary key 主键
    type_id int unique index (type_key) 热榜类型
    unique_key varchar(64) unique index (type_key) 唯一标识
    title varchar(255) index (idx_title) 标题
    content text 内容
    link varchar(255) 链接
    image_link varchar(255) 图片链接

    表: Rank

    用途: 存储热榜条目的排名和热度指标。

    字段名 数据类型 索引 注释
    id bigint primary key 主键
    type_id int index (idx_typename_timestamp) 站点名称
    unique_key varchar(64) index 唯一标识
    rank tinyint 排名
    metric int 热度指标
    timestamp int index (idx_typename_timestamp) 时间戳

    详细说明

    • HotType 表

      • id: 主键,自动生成。
      • type_name: 站点名称,长度为 16 个字符,唯一索引。
      • refresh_time: 刷新时间,整数类型。
    • Hot 表

      • id: 主键,自动生成。
      • type_id: 热榜类型,整数类型,和 unique_key 组成唯一索引。
      • unique_key: 唯一标识,长度为 64 个字符,和 type_id 组成唯一索引。
      • title: 标题,长度为 255 个字符,索引 idx_title
      • content: 内容,文本类型。
      • link: 链接,长度为 255 个字符。
      • image_link: 图片链接,长度为 255 个字符。
    • Rank 表

      • id: 主键,自动生成。
      • type_id: 站点名称,整数类型,索引 idx_typename_timestamp
      • unique_key: 唯一标识,长度为 64 个字符,索引。
      • rank: 排名,tinyint 类型。
      • metric: 热度指标,整数类型。
      • timestamp: 时间戳,整数类型,索引 idx_typename_timestamp
    1 条回复    2024-10-10 15:06:45 +08:00
    guoziq09
        1
    guoziq09  
       25 天前
    感谢~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4567 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 05:35 · PVG 13:35 · LAX 21:35 · JFK 00:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.