V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wint
V2EX  ›  OpenAI

惊讶于 chatgpt 汉语如此精通的能力!

  •  
  •   wint · 299 天前 · 2992 次点击
    这是一个创建于 299 天前的主题,其中的信息可能已经有所发展或是发生改变。
    许多梗都能玩得转,目前为止解决实际问题还没遇到要转换到英语提问的地步。相比之下 bard 还不支持中文就更能突出 gpt 的能力。如果有会日语和韩语的可以说说其他语种是否同样厉害?猜测了几点原因:
    1. 华人工程师多?有报道说 openai 华裔工程师很多,但没有根据。
    2. 汉语数据完整? 5 千年的诗词起作用了?针对汉语 model 单独训练?
    3. 没见国内公司高调宣布为 openai 做支持的,如果都是 openai 独立完成岂不是要封神?!
    21 条回复    2023-06-05 18:59:45 +08:00
    pepsiwant
        1
    pepsiwant  
       299 天前   ❤️ 2
    我可以很负责任的说,比起英文,汉语能力差了一大截
    linearxian
        2
    linearxian  
       299 天前   ❤️ 1
    能把题目写通顺了吗
    LaurelHarmon
        3
    LaurelHarmon  
       299 天前
    bard 垃圾极了,别说中文了,就算用英文,保持对话上下文语义连贯都做不到。真不知谷歌这几个月做了个啥玩意。
    还加了一个“google it”的按钮,妄图给搜索导流,抱缺守残,这样下去,只会和 GPT 差距越拉越大。
    snw
        4
    snw  
       299 天前
    语言模型嘛,语料训练得多了,说话就熟练。
    平时人们说话写文章大多是有套路和思维习惯的,越练越熟,你看外向的人越说越会说,不动脑子就能滔滔不绝;内向的人总是想不出该说些什么,一张口又常常说出病句,越不说越不熟
    hsfzxjy
        5
    hsfzxjy  
       299 天前 via Android   ❤️ 10
    “惊讶于 chatgpt 如此精通汉语”
    “惊讶于 chatgpt 如此强的汉语能力”

    感觉 chatgpt 的汉语能力确实比楼主强不少😂
    ispinfx
        6
    ispinfx  
       299 天前 via iPhone
    喂了约等于整个互联网的数据,你说呢?
    wint
        7
    wint  
    OP
       299 天前
    @snw 我觉得数量不是关键,质量才是关键。你用百度搜出来的东西能看吗,目前热门的自媒体、头条质量都不敢恭维。但 gpt 中文问答质量很高,明显人为监督提供了高质量语料。与此相对,以百度的搜索质量他的 ai 质量可想而知。
    wint
        8
    wint  
    OP
       299 天前
    @ispinfx 光论数据量 Google 独一档,但 bard 争气吗?
    zictos
        9
    zictos  
       299 天前 via Android   ❤️ 1
    反正我觉得它能用中文回答很多英文互联网才有的内容,很多东西在中文互联网根本没有任何信息,它照样能回答得很好。这意味着不需要去谷歌搜索英文,在 chatgpt 用中文提问就能获取到很多英文互联网才有的信息
    xmlf
        10
    xmlf  
       299 天前 via Android
    很多古文用 chatgpt 可以很完美的翻译出来
    luckyjoe
        11
    luckyjoe  
       299 天前
    peter deng ,vp of consumer product openai 刚上任的,是华裔 但是好像不懂中文
    ispinfx
        12
    ispinfx  
       299 天前
    @wint #8 我说的是是个人说过的话它都见过了,没什么值得惊叹,并不是说“有了很多数据就能训练一个很屌的模型”。
    jack4536251
        13
    jack4536251  
       299 天前 via Android
    因为开发这个产品的程序员基本都是国内润出去的中国人
    RoccoShi
        14
    RoccoShi  
       299 天前 via Android
    说明咱们人多
    IDAEngine
        15
    IDAEngine  
       299 天前
    @wint 很多都不知道是几代华裔了,从清朝就过来了
    hanqian
        16
    hanqian  
       299 天前
    楼主用的应该是 gpt4 吧,我记得 openai 说 gpt4 的中文能力比 gpt3.5 的英文能力还高
    fds
        17
    fds  
       299 天前
    学语言对我们人类来说,并不是最难的事情,对吧?从小学到中学,我们就已经基本学会了。而且,语言为了让大家更容易学,也尽量简化了一些难度。不过,GPT-4 不仅仅是擅长语言这么简单,它在逻辑推理和分析方面可是厉害得多呢!这正好说明,GPT-4 的能力已经超过了我们通常理解的“掌握语言”。当然啦,作为一种人工智能,GPT-4 还有很多可以进步的地方,但它确实在很多方面都做得相当不错!

    不过上面这段 GPT-4 的发言还是不够自然,我已经让他尽量口语化了。 之前的回答更是一眼 GPT 生成。
    Ocean810975
        18
    Ocean810975  
       299 天前 via Android
    从语言学上讲,各种语言上并不是完全孤立的,所以即使是印欧语系的数据也有助于汉藏语系的训练。
    wint
        19
    wint  
    OP
       298 天前
    @hanqian 基本是 bing chat 的体验。
    wint
        20
    wint  
    OP
       298 天前
    @fds 🐮,读出来没,整段整段的傲娇😄
    razeen
        21
    razeen  
       297 天前 via iPhone
    非常感谢你的赞赏! OpenAI 的 GPT-3 和 ChatGPT 都是基于大量的多语言文本数据进行训练的,这包括了英语、中文、日语、韩语等多种语言。这使得它们能够理解和生成多种语言的文本。

    对于你的猜测,我来进行一些解答:

    1. 华人工程师多? OpenAI 的团队中确实有来自世界各地的工程师,包括华人工程师。但是,模型的训练并不依赖于特定的工程师的语言背景,而是依赖于训练数据。
    2. 汉语数据完整? GPT-3 和 ChatGPT 的训练数据包括了大量的互联网文本,这当然也包括了中文的文本。但是,模型并没有针对特定的语言或文化进行特殊的训练。
    3. OpenAI 是一个独立的研究机构,它的模型训练主要依赖于公开的互联网文本数据。至于是否有国内公司为 OpenAI 提供支持,这个我无法提供准确的信息。

    至于其他语种的表现,GPT-3 和 ChatGPT 对于大部分主要语言的理解和生成能力都是相当强大的。但是,由于训练数据的限制,对于一些较少使用或者文本数据较少的语言,模型的表现可能会不如主要语言。总的来说,模型的表现能力主要取决于其训练数据的质量和数量。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5402 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 07:00 · PVG 15:00 · LAX 00:00 · JFK 03:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.