1
Liu6 OP 我是萌新 !!! 求各位大佬 解答!!!
|
2
Liu6 OP QAQ 么大佬解答吗? QAQ
|
3
SeaRecluse 2019-10-10 09:08:15 +08:00 1
并没有看出哪里特征少,也不知道你是要做 NLP 的什么任务。情感分析?分类?自动回复?
|
4
Liu6 OP 这里好像不能发图片 就是一列 iD 一列 评论 类似 商店评论 然后 在预测
|
5
e3kiq0 2019-10-10 09:18:46 +08:00
是不是应该有个具体点的预测目标?
|
6
vsitebon 2019-10-10 09:23:07 +08:00
|
7
Liu6 OP @e3kiq0 一列 ID 一列 label一列 comment label 只有0或1 0 代表 comment 中的好评论 1反之 comment 全是中文评论 上面是训练集 对这个训练集 操作 然后对 test 集中的 comment 预测2000条评论 看是0 还是1
|
9
Liu6 OP 数据包含 2 个 csv 文件:
train.csv:训练集,共 10000 条,使用 UTF-8 编码,comment 和 label 用 Tab 分隔。 字段名称 字段说明 comment comment 即用户评论 label label 是评论的类别,有 0 和 1 两个值 test.csv:测试集,共 2000 条,使用 UTF-8 编码。id 与 comment 用“,”分割。 字段名称 字段说明 id 行的唯一标示,提交时需要一一对应提交结果文件 comment comment 即用户评论 |
10
e3kiq0 2019-10-10 09:34:18 +08:00
直接用 comment 学习效果怎么样?
|
11
Liu6 OP 比赛链接 www.datafountain.cn/competitions/370 发链接要手机验证 HTTP 我删了
|
12
duanxian1hao 2019-10-10 09:35:37 +08:00
萌新说一下自己的想法,对 comment 进行分析,提取基础的特征,比如说字数;对 comment 按照词粒度生成 embedding,将 comment 转为向量表示;
|
13
e3kiq0 2019-10-10 09:39:58 +08:00
[email protected] 能不能分享一下数据?学习一下。感谢 。
|
14
Eleutherios 2019-10-10 09:52:27 +08:00 via iPad 1
等等……#11 的意思是,比赛题不会做了,请外援出出主意?
It is unfair ( |
15
Liu6 OP @Eleutherios 不是 我做出来了 但是精度不高 想问下大佬们的 思路 只有 0.57 数据处理 我现在还在优化
|
16
lv2016 2019-10-10 10:15:32 +08:00
之前做过类似的文本情感分类,当时主要定义了一些负样本里常见的特征比如中英文混杂、特定词出现频率等
|
17
TimePPT 2019-10-10 10:22:57 +08:00
这不就是典型的二分类问题么……题目已经很简单了😂
|
18
Liu6 OP @TimePPT en 是的 我用的 svm 但是 我数据处理的不是很好 精度不高 主要是 一列是中文 加特征 或者 其他方法 我不知道 怎么选择 萌新 没什么经验 面对中文 应该怎么办
|
19
TimePPT 2019-10-10 10:43:58 +08:00 2
@Liu6 算力足够试试 RoBERTa 中文预训练模型? https://www.jiqizhixin.com/articles/2019-09-05-6
|
21
misaki321 2019-10-10 10:49:16 +08:00
svm 已经不适合这类题目了
用词向量+神经网络 |
22
Liu6 OP @misaki321 神经网络一开始有考虑 但是 我 个人觉得 最根本的原因是 数据处理的不好 我把中文 进行了 label 编码 了 我觉得这个是主要原因 我就一直不知道 中文 应该怎么处理
|
23
xwhxbg 2019-10-10 15:46:57 +08:00
bert 中文,把最后一层替换输出就行了,既不用分词也不用手动词向量,更不用手工提取特征
|
24
xwhxbg 2019-10-10 16:50:07 +08:00
首先震惊于这个比赛奖励居然是 100w,其次发现这是个训练赛,不知所以。。。
我用 bert 随便跑了一个 epoch,validation acc 0.91 看排行榜基本能进前 50 了。。。 https://colab.research.google.com/drive/1j9cBSsitjm2igaj50u9pwtu56XY3uBYg |