V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ipwx  ›  全部回复第 21 页 / 共 195 页
回复总数  3888
1 ... 17  18  19  20  21  22  23  24  25  26 ... 195  
1. 找一个巨大的语料库。
2. 用分词(比如 jieba )抽取词的 token 。
3. 然后直接统计。

----

但是……

这个方法估计你得不到有意义的答案,原因是 word token 太稀疏了,所以是失真的。

改进方法:

1. 找一个巨大的语料库。
2. 用分词抽取 word token 。
3. 训练 word embedding model 。
4. 训练一个分类器,p(next word embedding | previous word embedding)

----

如果要增加效果,可以考虑

p(next word embedding | context)

而不是只给定上一个词语。相关的改进建议查询论文。
2022-05-19 11:37:56 +08:00
回复了 hiugo 创建的主题 程序员 如何快速顺序生成一亿个数字
❯ time seq 1 100000000 > /dev/null
seq 1 100000000 > /dev/null 15.53s user 0.02s system 99% cpu 15.553 total
@LeeReamond 一般 cmake 就行了。第三方库直接一起丢进来编译就是了。C++ 算法库一般都是模板,而模板库一般都是 header-only ,根本不难编译。pybind11 用 os 自带的就行,apt-get install pybind11-dev python3-dev 然后 cmake FindPackage 就可以了。
你这需求难度堪比造火箭。
举个常见的例子,男的失恋了去找兄弟,然后就是喝酒吹牛兜风玩游戏,基本目标是消磨时间;女的失恋找姐妹,会聊很多生活的经历和想法,讨论用什么心态对待,算是情感上的连接。
----

@Zerek 楼主加油。你看 53L 的言论「“失恋”这种词也是种软弱,就不应该出现在男性身上。。。」,就知道为啥你找不到可以聊的同性了。统计上,我国大环境如此,水做的男人不多的。

不过既然楼主的性格有点水做的,不如找找强势的大姐姐。或者干脆女装( doge
2022-05-14 17:15:08 +08:00
回复了 shikimoon 创建的主题 程序员 有上亿的词算词频怎么算比较快
上述操作必须用指针在那里魔法计算。。。不要用 STL 容器。不然速度还是提不上去
2022-05-14 17:14:05 +08:00
回复了 shikimoon 创建的主题 程序员 有上亿的词算词频怎么算比较快
比如,如果都是英文字母,不需要区分大小写,那你的符号表就只有 26 个字符。为了速度可以取 32 。

既然长度都在 1~5 之间,那你用三层 Trie tree 就能有效压缩深度。每一层是 1024 个格子,取格子只要位移操作不用乘法。相当于分层快速哈希,而且必然没有冲突了。
2022-05-14 17:11:39 +08:00
回复了 shikimoon 创建的主题 程序员 有上亿的词算词频怎么算比较快
Trie Tree 可能会快一点,但你要用 C++ 来极限优化,不然反而比 hash 更慢。
总之运算符重载在特定场景下好用,但是不能滥用。
@murmur 你这也太绝对了。科学计算的时候还是很希望面对“符号”计算而不用关心这个符号是什么类型的。Julia 的核心优势就是在写科学计算过程式不用关心类型,但编译时又能代入类型进行优化。。。。(对就是 C++ 模板的 easy 版。
2022-05-13 22:39:58 +08:00
回复了 dzhou121 创建的主题 分享创造 Lapce 发布 v0.1.0 用 Rust 编写 GPU 渲染的开源代码编辑器
不可能三角:

运行效率、功能、开发成本。
2022-05-12 23:43:46 +08:00
回复了 HackerJax 创建的主题 CSS [吐槽]这个世界上为什么会有 Tailwind Css 这种东西?
@noe132 你是不是对 css 有所误解。。。

现代化 js 框架 + webpack 不应该有 scoped css 用吗?

比如 vue one file component
2022-05-12 14:56:31 +08:00
回复了 oldshensheep 创建的主题 分享发现 一些语言中 String 的坑
In [1]: S = '哈哈🎋🧨😘'

In [2]: S[::-1]
Out[2]: '😘🧨🎋哈哈'

In [3]: len(S)
Out[3]: 5
2022-05-12 14:54:44 +08:00
回复了 oldshensheep 创建的主题 分享发现 一些语言中 String 的坑
其实让我比较惊讶的是

console.log(str.length) //8
console.log([...str].length) // 5

别的语言要么都是 8 ,要么都是 5 。不愧是大 JS ,继三位一体不等式以后,又出现了新的不一致性。
2022-05-10 19:54:53 +08:00
回复了 Bingchunmoli 创建的主题 程序员 关于 Java 很重有感
@mekingname ummm 你的理由我认同,但我觉得你的例子不太妥当。

TencentStringUtil 不行,你得至少用 tencent/StringUtil 。

不过话说回来,我觉得问题的核心是,别的语言都会用下划线,比如 "flask_wtf"。到 Java 这边至少也得是个 spring.xxx.yyy ,就是不喜欢平行扩展命名空间用分隔符。这才是嵌套目录深的原因。
2022-05-10 19:50:57 +08:00
回复了 demonps 创建的主题 Python 求推荐中小型项目敏感词检测 Python 案例
2022-05-10 14:36:10 +08:00
回复了 void59468 创建的主题 C++ gcc 可变长度数组
在栈上分配可变内存,太大了就会爆栈。又会导致和其他一些编译手段不兼容。所以很没意思。

我记得人家做栈内存优化,都是先 char buffer[1024]。如果需求更大就 malloc
1 ... 17  18  19  20  21  22  23  24  25  26 ... 195  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2597 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 54ms · UTC 12:59 · PVG 20:59 · LAX 05:59 · JFK 08:59
Developed with CodeLauncher
♥ Do have faith in what you're doing.