V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  flyv2x  ›  全部回复第 2 页 / 共 5 页
回复总数  87
1  2  3  4  5  
@LeeReamond transformer 不只是生成查询( Q )、键( K )和值( V )的一个全连接层,还有多头注意力机制,FFNN 都有用到。
简要流程:
1.每个词通过词嵌入模型被转换为一个固定长度的向量(词嵌入向量),这个过程是自然语言处理( NLP )中的常规步骤。(词嵌入向量每个维度代表不同的潜在语义属性)
2.在自注意力机制中将每个词的嵌入向量与三个不同的权重矩阵相乘,分别得到 Q (查询)、K (键)和 V (值)向量。这里用到的三个权重矩阵 WQ,WK,WV 是模型通过训练学习到的参数。
3.Softmax(Q·K/sqrt(x))->求出注意力分数,注意力分数会对值向量 V 进行加权求和,以生成每个位置的输出向量。这样,*每个输出向量就是输入序列中所有位置的信息的加权组合*,其中的权重反映了每个输入位置对当前输出位置的重要性。

实际 Transformer 模型中,会使用“多头注意力”机制(multi-head-attention),即并行地进行多次上述 2,3 注意力计算,每次使用不同的 Q 、K 、V 权重矩阵。这允许模型在不同的表示子空间中捕获信息。然后,所有头的输出会被拼接起来,并通过另一个线性层进行变换,以生成最终的多头注意力层的输出。
词嵌入向量:向量旨在捕捉词汇的语义特征,每个维度代表不同的潜在语义属性。
词嵌入向量->转换到 Q 、K 、V 过程是通过权重矩阵相乘来实现。在 Transformer 中,Q (查询)、K (键)和 V (值)向量的每个维度都是原始词嵌入向量所有维度的加权结果。
116 天前
回复了 jyhmijack 创建的主题 酷工作 [成都]Golang
有意思
117 天前
回复了 txzh007 创建的主题 程序员 你们还在坚持练习算法吗
leetcode 已经成为了一种爱好了,有毒
能去就去,不要犹豫
go 在外企的使用非常非常少,大部分是 DevOps 运维相关的工作。用 Go 做后端的外企大概只有特斯拉了。
123 天前
回复了 movq 创建的主题 职场话题 上班感觉很累
国内人 work out 的时间太少,就是基本不健身,这也是个问题!
124 天前
回复了 mohumohu 创建的主题 程序员 被稀土掘金这内容农场网站气死
用英文搜索啊
新人,没关注过
131 天前
回复了 NewTime 创建的主题 酷工作 上海外资公司招聘 Go 后端高级开发
挺奇怪的,外企怎么不多公布点信息,难道是 Web3
这太离谱了
138 天前
回复了 iceAD 创建的主题 程序员 大家的工作中会有 Code Review 吗?
国内小公司基本不重视技术文档和 Code Review 这些基本开发流程
144 天前
回复了 congu 创建的主题 职场话题 如何面向就业学习(C/C++/Rust)
还是学 Java 吧
不用适应,去上班你就能适应了
145 天前
回复了 Dolov 创建的主题 职场话题 选择国企还是互联网企业
重要看做什么,找自己感兴趣的项目。一般来说国企糊弄事的比较多,建议互联网公司
145 天前
回复了 Cola98 创建的主题 职场话题 工作一年半,裁员体验两次
继续寻找机会
一个电池几个钱,码农花时间投资在自己身上的收入,比这个电池不知道高多少去了
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1027 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 22:03 · PVG 06:03 · LAX 15:03 · JFK 18:03
Developed with CodeLauncher
♥ Do have faith in what you're doing.