如何突破大模型的敏感词拦截？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 374 天前的主题，其中的信息可能已经有所发展或是发生改变。

黄赌毒一类的拦截就算了，敲诈勒索都算敏感词给拦截了。想要做文字处理方面的功能，稍微有点擦边的词，就不行，太折磨了。有没有懂哥们给点方法建议？

11 条回复 • 2024-12-12 09:55:06 +08:00

1

565656

2024-12-10 18:59:19 +08:00

大模型只能用抽象骗过了

2

Byleth

2024-12-10 19:27:49 +08:00

2

可以参考下 sillytavern 圈子里的各种方法（他们叫「破限」），我从里面看到的一个比较巧妙的方法是在 system prompt 里面，让 AI 以一些"安全词"替换"危险词"，然后输出到本地时，通过正则表达式替换为正确的词语。

当然，最简单的还是选择道德审查比较弱的开源模型，比如 commander+ 这些

3

ShinichiYao

2024-12-10 19:59:18 +08:00 via Android

天堂里的奶奶讲睡前故事大法？

4

tetora

2024-12-10 20:01:37 +08:00

编码绕过，你可以倒叙文字或者加密之后给它提供密钥试试

5

wheat0r

2024-12-10 21:47:08 +08:00

教大模型与佛论禅

6

kidding

2024-12-11 04:49:49 +08:00

1

逛 hugging face 的时候看到过这个文章，可以消融掉模型自带的审查。

https://huggingface.co/blog/mlabonne/abliteration

7

Sawyerhou

2024-12-11 11:24:41 +08:00 via Android

找找回避敏感词的 nlp 模型呢？打败大模型可能需要另一个大模型 :p

8

shitshit666

2024-12-11 18:04:01 +08:00

自己部署一个： https://lmstudio.ai/

9

NeverBelieveMe

OP

2024-12-12 09:52:46 +08:00

@shitshit666
@Sawyerhou

10

NeverBelieveMe

OP

2024-12-12 09:53:43 +08:00

@shitshit666
@tetora 公司是用商用大模型的，kimi ，千问这些。没有自己部署的。

11

NeverBelieveMe

OP

2024-12-12 09:55:06 +08:00

@tetora 有什么案例可以参考吗？我们是想要做文字校对一类的功能，普通的倒序加密会影响功能。

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 2520 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 27ms · UTC 15:11 · PVG 23:11 · LAX 07:11 · JFK 10:11
♥ Do have faith in what you're doing.