GItHub 利用各位存放在上面的代码，进行 AI 训练搞出一个自动代码生成工具，根据注释自动生成对应代码，各位什么看法

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1661 天前的主题，其中的信息可能已经有所发展或是发生改变。

原理是，AI 根据注释描述，直降将相近的代码直接从莫个人的仓库中照搬过来，无视他人的协议。

https://www.bilibili.com/video/BV16P4y147Ub?p=1&share_medium=iphone&share_plat=ios&share_source=WEIXIN&share_tag=s_i&timestamp=1627280615&unique_k=CMBJAH

第 1 条附言 · 2021 年 7 月 28 日

我就是想看看大家怎么说，比起一一讨论更有意思😅，抱歉没有一个个回复

代码

注释

生成

GitHub

15 条回复 • 2021-07-28 06:27:08 +08:00

janxin

2021 年 7 月 26 日 via iPhone

这个之前有过讨论，理论上是基于模型生成的不违反开源协议。

henryhu

2021 年 7 月 26 日

老铁，Github 已经出了官方的 AI 编程

bnrwnjyw

2021 年 7 月 26 日

都闹腾了两周了还在问看法。。。（感觉 2 天前发生的事对我来说就算过时了）

abersheeran

2021 年 7 月 26 日

这个 AI 的智能远超 ctrl+c ctrl+v 的水平。

比如我自己的 web 框架，用户量可以说十分少了，估测也就十来个人（包括我在内），所以不存在什么大数据给它训练。但它给出的自动补全，只需要在项目里自己手写第一个 function，第二次就能给出不错的提示。
比如一个朋友（这个真不是我自己）造了一个完全没出现过的编程语言语法，它很快就能学会并且给出智能提示。

所以我认为 AI 给出的所谓相似代码，更像是一个编程新手看了别人的代码思路之后自己写出来的代码。如果这种行为都要被打击，那可太恐怖了。

zjsxwc

2021 年 7 月 26 日

额，把 bug 也一起抄过来吗，英雄所见略同，23333

reallittoma

2021 年 7 月 26 日

@abersheeran 写开源版 Windows 的程序员不能看 Windows 的代码……

rekulas

2021 年 7 月 26 日

严格来说似乎也有违法的性质，像之前 stylegan 生成人脸，如果你是基于互联网开放数据的模型来生成很容易引起官司，有几个正规公司都是自己请模特拍摄人脸或购买授权人脸作为基础模型数据才敢商用，代码应该也是类似情况，相关法律会逐渐完善

wt1314g

2021 年 7 月 26 日

这不是搬石头砸自己的脚么？
要啥看法？
就跟人来研究 dna 重组，培育新生命一个道理吧。

israinbow

2021 年 7 月 26 日

希望代码能开源, 模型最好也能放出, 训练集就不能要了.

dousha99

2021 年 7 月 26 日

法律上的问题我选择交给律师去解决。这个东西真正技术上会有问题的是过拟合，比如有些敏感的配置值（口令、秘钥等）可能会被自动生成出来，这就很难受了。如果这个工具无视仓库私有的设定的话，很容易导致在私有仓库内的关键 credential 被钓出来。

以及似乎已经有[Copilot 生成可用的 API 秘钥]( https://fossbytes.com/github-copilot-generating-functional-api-keys/)的新闻报道了。比起「洗稿别人公开的代码是否是法律上可行以及道德上允许」这个问题，我个人觉得「避免代码生成工具泄露关键信息」更值得重视。

uyZL3221XZ2xGZ3D

2021 年 7 月 26 日

会不会出一个 .copilotignore

monkeyNik

2021 年 7 月 26 日

感觉要是真能做的很好也算是一件造福企业的事情，不过我也不相信机器会比人的思想更加灵活变通。不过也解释了为啥每天总有那么几个和访问量不对等的 clone 量。

howel52

2021 年 7 月 27 日

写 comments 时像是在结对编程

codehz

2021 年 7 月 27 日

@dousha99 只有公开仓库（

LeeReamond

2021 年 7 月 28 日

其实有两点疑问，第一是逻辑本身的复杂性不会缩减，即使有很多通用模块可以通过代码创建，之后还要反复 review 确保可靠，开发成本是否降低是个疑问。第二是，让程序员用英文写一段注释准确描述一个代码段落的行为，怕是比要求他们直接写程序更难，就程序员社区这个语死早的样子，就算用中文又有几个程序员能描述明白呢