得益于开源项目:
https://github.com/LC044/WeChatMsg
现在导出微信聊天记录已经是一件相当简单的事情了。但是这个项目跑出的词云好像有点问题,好像聊天记录不完整一样。所以我去找了可以读取 SQLite 的软件,读了他解码出来的数据库文件。
执行 SQL:
-- MicroMsg.db 文件中的 Contact 表存的用户信息,先根据备注查微信 ID
SELECT UserName FROM Contact WHERE Remark=?
-- Msg.db 中的 MSG 表存的历史聊天记录
SELECT StrContent, localId, datetime(CreateTime, "unixepoch", "localtime") as CreateTime FROM MSG WHERE StrTalker = ? AND Type = 1 AND StrContent NOT like "%[%" ORDER by CreateTime asc
然后发现数据是全量的,但是词云不准确,不知道什么原因。迫于不想读源码,直接找了个词云工具,重新生成。
感谢开源项目:
https://github.com/fuqiuai/wordCloud
https://github.com/silsuer/wordcloud
一键提取微信聊天记录,生成 HTML 、Word 文档永久保存,还能生成微信年度聊天报告
微信聊天记录只是备份就太无聊了,一键生成属于自己的词云图,让我们玩点有意思的
所用到的工具被我放在公众号里了,如果有兄弟感觉被冒犯,那对此我感到抱歉,请联系站长帮我移动到推广节点。
赶紧出来解释一下: 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂! 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂! 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂!
此外,公众号在教程的链接里,这里也放一个图片吧,那就。
1
sunny352787 2023-12-13 10:30:21 +08:00 68
MD ,路过还能被电子脚踹一下...
|
2
YaD2x 2023-12-13 10:34:36 +08:00 4
方法学会了,请问老婆哪里找?
|
3
AFOX 2023-12-13 10:35:13 +08:00 via Android 3
shit ,单身狗看不得这个,但是创意很好
|
4
littleJohn 2023-12-13 10:43:29 +08:00
省流:老公 老婆 老板 哈哈哈
|
5
pianjiao 2023-12-13 10:43:46 +08:00
图碎了。 公众号在哪儿
|
6
proxychains 2023-12-13 10:43:51 +08:00
单身喵看不得这些
|
7
cheava 2023-12-13 10:45:43 +08:00 7
第一张图右臂部分有点意思
|
8
vagusss 2023-12-13 10:46:53 +08:00
不错
|
9
Tumblr 2023-12-13 10:47:16 +08:00 57
|
10
webjourneyer 2023-12-13 10:47:39 +08:00
这个有点意思
|
11
murmur 2023-12-13 10:55:03 +08:00 1
我想那个了
吃了 嗯 来! 在一起 多 要 |
12
jonahtan 2023-12-13 10:57:22 +08:00
有点意思
|
13
zfy941 2023-12-13 10:58:56 +08:00 1
只看到了 老婆 老公 想要 给我
|
14
dddd1919 2023-12-13 10:59:48 +08:00
老婆 你 没有 这个
|
15
miemie666 2023-12-13 11:02:52 +08:00 3
闭眼都知道要歪楼了
|
16
graetdk 2023-12-13 11:03:38 +08:00
|
24
jonahtan 2023-12-13 11:11:18 +08:00
not support for macOS base on apple chip 😢
劝退 |
26
ryalu 2023-12-13 11:16:48 +08:00
单身狗手贱点进来了,你可真该死呀🐶
|
27
billzhuang 2023-12-13 11:24:38 +08:00
hahhahahahahahahahhahaha
|
28
goddamhucker 2023-12-13 11:25:14 +08:00
鼠人看不得这些😭
|
29
JARKECHONG 2023-12-13 11:30:09 +08:00
|
30
Tezos 2023-12-13 11:32:53 +08:00
emmmmmmm
|
31
angenin 2023-12-13 11:44:54 +08:00
买菜必涨价!!!
|
32
RobertLyu 2023-12-13 11:48:12 +08:00
行了,我知道你们很恩爱了,带着我的祝福快快离开吧。🥲
|
33
MRG0 2023-12-13 11:48:27 +08:00
qq 能实现吗,好像有消息漫游,比较狗屎
|
34
Donahue 2023-12-13 11:53:49 +08:00
核凸 报警!!!🐶
|
35
wqhui 2023-12-13 11:54:24 +08:00
特意切个代理看图
|
36
itianjing 2023-12-13 12:01:50 +08:00
两年前求婚的时候也搞了这个,导出微信聊天记录废了好大的劲
|
38
DAGU1182810784 2023-12-13 12:08:57 +08:00
哥们儿不拿咱们当外人儿啊
|
39
Hyschtaxjh 2023-12-13 12:26:48 +08:00
停用词过滤一下噢
|
40
szyp 2023-12-13 12:59:58 +08:00
https://github.com/myth984/wechat-report 两年前用过一个类似的
|
41
foreverpp50 2023-12-13 13:27:41 +08:00
为什么聊天记录不用蓝奏云啊,阿里云盘还要登录才能下载
|
42
Dogergo OP @foreverpp50 蓝奏云不让我放 exe
|
43
jethroX 2023-12-13 13:35:19 +08:00
我的全险半挂灯好像不亮了,能不能请你帮我去看一下?
|
44
foreverpp50 2023-12-13 13:36:15 +08:00
@Dogergo 打包放不行吗
|
45
Dogergo OP @foreverpp50 可以去[github]( https://github.com/LC044/WeChatMsg)的 release 里下载,我回头想办法看看压缩了能不能把地址改一下
|
47
0xGnaixEuy 2023-12-13 13:41:04 +08:00 via iPhone
酷酷酷
|
48
pianjiao 2023-12-13 13:42:00 +08:00
看不见图 ,也不知道什么鬼
|
49
456789 2023-12-13 13:49:44 +08:00 via Android
老公 老婆 我想 那个 嚯哈哈哈哈哈,呵 tui
|
50
Dogergo OP @foreverpp50 good ,感谢提供,已经放上了蓝奏云的地址
|
51
Dogergo OP @pianjiao 就 https://imgur.com 图床的图,看不到的话你可以点教程里那个词云的连接,我在微信推文里也有放这个图
|
53
mh 2023-12-13 13:56:45 +08:00
两年前看到过类似的帖子,当时我也弄了一下,还挺费劲的哈哈
|
54
cat9life 2023-12-13 14:00:10 +08:00
这个有点意思 就是聊天记录不全了
|
56
assiadamo 2023-12-13 14:07:47 +08:00
老婆我嗯了?
|
57
idealhs 2023-12-13 14:24:20 +08:00
我想那个了
|
58
shm7 2023-12-13 14:25:32 +08:00
词云本身有开源的库,问题是你想从聊天记录提取些什么。
一般商业要提取一些关键词,你这都是 老婆我... ;) |
59
palxie 2023-12-13 14:30:32 +08:00
我想那个了 真的一眼就看到
|
60
moeik 2023-12-13 14:30:52 +08:00
op 你好 我发现教程有断层啊,聊天记录解密了 导出为?,在词云加载过程中选的聊天记录是怎样的格式?
|
61
Dogergo OP @moeik
1.不用导出,解密完成之后`MemoTrace-0.2.7.exe`这个软件所在目录下会生成`app`->`dataBase`->`msg`文件夹,里边都是以.db 结尾的 Sqlite 数据库文件,把`MSG.db`和`MicroMsg.db` 2.把这两个 db 文件复制一下粘贴到词云软件解压出来的文件夹下的`db`文件夹里,然后运行词云软件就好了。可以看我生成词云那篇文章底部是有视频教程的 |
62
Martens 2023-12-13 14:42:02 +08:00
支持语音吗?聊天记录有很多语音
|
63
Rorysky 2023-12-13 14:44:44 +08:00
建议把 无法单独成语素的语气词过滤掉
|
65
clifftts 2023-12-13 14:49:16 +08:00
我为什么会被这个帖子强行拉进来,吃一波狗粮,wtf
|
66
Dogergo OP @Martens 这个要去看开源项目`https://github.com/SuxueCode/WechatBakTool`这个项目目前是已经实现了解密语音
|
68
dsggnbsp 2023-12-13 15:19:29 +08:00
省流:我 你 啊
|
69
KimiArthur 2023-12-13 15:22:57 +08:00 via Android
导出简单吗?有没稍微详细点的原理解释?
|
70
echoyangjx 2023-12-13 15:27:41 +08:00 via Android
逛 v2 还能吃狗粮
|
71
liqingyou2093 2023-12-13 15:29:15 +08:00
省流: 我想那个了
|
72
lele140 2023-12-13 15:37:53 +08:00
怎么屏蔽调一些语气助词,比如:啊,吧,哦
|
73
spaceman 2023-12-13 15:40:26 +08:00
很酷,但是我看到了一句:“我想那个了。”
|
75
Dogergo OP @KimiArthur 原理复杂,操作简单。这和搞开发是一样的,尽可能降低用户侧的学习成本。要研究原理的话,可以去参考`https://mp.weixin.qq.com/s/4DbXOS5jDjJzM2PN0Mp2JA`
|
76
aitianci 2023-12-13 16:41:06 +08:00
豆沙了😭豆沙了😭
|
77
StoneHuLu 2023-12-13 16:54:33 +08:00
有没有 qq 聊天记录的,我和我老婆都不用微信的
|
78
lixiangyang9b319 2023-12-13 16:57:43 +08:00 via iPhone
牛逼,感谢哦大哥
|
79
aaa5838769 2023-12-13 17:24:59 +08:00
从聊天记录,看到了很多开车的记录。
|
80
iv2ex 2023-12-13 17:25:36 +08:00
好像没有 macos 的?
|
83
maokg 2023-12-13 18:05:50 +08:00
可以统计群聊的记录吗?(化身产品经理
|
84
kakki 2023-12-13 18:17:00 +08:00
还好没看到 dirty talk
|
85
kumastudio 2023-12-13 18:34:07 +08:00
赛博狗粮
|
86
czfy 2023-12-13 18:50:18 +08:00 via Android
其实在 LLM 出来之后,分词这类中文 NLP 特有的中间过程已经变得没那么必要了…
|
87
Loserzhu 2023-12-13 19:34:51 +08:00
我不吃牛肉(掏枪
|
88
edinina 2023-12-13 19:36:53 +08:00
给我都看兴奋了
|
89
AsyncX 2023-12-13 19:44:43 +08:00 2
我们也是你们 play 的一环吗
|
90
ovtfkw 2023-12-13 19:55:45 +08:00
mac 微信不可以吗
|
91
bao3 2023-12-13 20:22:46 +08:00
Geekm 的浪漫。
跳一下 tone:我和我老婆的聊天记录,全是性相关的,还聊到过我想上她姐…… |
92
hertzry 2023-12-13 20:27:50 +08:00
分词之后可以手动去掉一下没用的东西,然后再画图。
|
94
ChicC 2023-12-13 23:42:37 +08:00
只看到了 老婆 老公 想要 给我
|
95
ttyhtg 2023-12-14 00:22:05 +08:00 via Android 1
作为单身狗我居然敢点开,还是祝福楼主
|
96
programMrxu 2023-12-14 08:39:57 +08:00 1
祝福楼主了
|
97
mingring 2023-12-14 08:43:43 +08:00
我跑出来怕都是敏感词
|
98
beijiaoff 2023-12-14 09:00:08 +08:00
我用的飞书文档的多维表格,可以自动生成词云。
|