各位大佬们关于机器学习数据集中特征少

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2320 天前的主题，其中的信息可能已经有所发展或是发生改变。

数据集中只有一列 id 和 comment 然后 comment 全是中文这个怎么进行处理？？？加特征吗？那应该加什么特征呢？？？？第一次接触文本数据集

comment

特征

机器学习

数据

25 条回复 • 2019-10-10 16:57:19 +08:00

Liu6

2019 年 10 月 10 日

我是萌新！！！求各位大佬解答！！！

Liu6

2019 年 10 月 10 日

QAQ 么大佬解答吗？ QAQ

SeaRecluse

2019 年 10 月 10 日

并没有看出哪里特征少，也不知道你是要做 NLP 的什么任务。情感分析？分类？自动回复？

Liu6

2019 年 10 月 10 日

这里好像不能发图片就是一列 iD 　　一列　评论　　类似　商店评论　　然后　在预测

e3kiq0

2019 年 10 月 10 日

是不是应该有个具体点的预测目标？

vsitebon

2019 年 10 月 10 日

发图片的方法： https://www.v2ex.com/t/408727?p=2

Liu6

2019 年 10 月 10 日

@e3kiq0 一列　 ID 　一列　ｌａｂｅｌ一列　 comment 　　 label 　只有０或１　　０　代表 comment 中的好评论　１反之　　　 comment 　全是中文评论　上面是训练集　　　对这个训练集　操作　　然后对 test 集中的 comment 预测２０００条评论　看是０　还是１

Liu6

2019 年 10 月 10 日

@vsitebon 看了但是还是云里雾里的不会 QAQ 不知道怎么把电脑上的图片上传

Liu6

2019 年 10 月 10 日

数据包含 2 个 csv 文件：

train.csv：训练集，共 10000 条，使用 UTF-8 编码，comment 和 label 用 Tab 分隔。

字段名称字段说明
comment comment 即用户评论
label label 是评论的类别，有 0 和 1 两个值
test.csv：测试集，共 2000 条，使用 UTF-8 编码。id 与 comment 用“,”分割。

字段名称字段说明
id 行的唯一标示，提交时需要一一对应提交结果文件
comment comment 即用户评论

e3kiq0

2019 年 10 月 10 日

直接用 comment 学习效果怎么样？

Liu6

2019 年 10 月 10 日

比赛链接 www.datafountain.cn/competitions/370 发链接要手机验证 HTTP 我删了

duanxian1hao

2019 年 10 月 10 日

萌新说一下自己的想法，对 comment 进行分析，提取基础的特征，比如说字数；对 comment 按照词粒度生成 embedding，将 comment 转为向量表示；

e3kiq0

2019 年 10 月 10 日

[email protected] 能不能分享一下数据？学习一下。感谢。

Eleutherios

2019 年 10 月 10 日 via iPad

等等……#11 的意思是，比赛题不会做了，请外援出出主意？

It is unfair (

Liu6

2019 年 10 月 10 日

@Eleutherios 不是我做出来了但是精度不高想问下大佬们的思路只有 0.57 数据处理我现在还在优化

lv2016

2019 年 10 月 10 日

之前做过类似的文本情感分类，当时主要定义了一些负样本里常见的特征比如中英文混杂、特定词出现频率等

TimePPT

PRO

2019 年 10 月 10 日

这不就是典型的二分类问题么……题目已经很简单了😂

Liu6

2019 年 10 月 10 日

@TimePPT en 是的我用的 svm 但是我数据处理的不是很好精度不高主要是一列是中文加特征或者其他方法我不知道怎么选择萌新没什么经验面对中文应该怎么办

TimePPT

PRO

2019 年 10 月 10 日

@Liu6 算力足够试试 RoBERTa 中文预训练模型？ https://www.jiqizhixin.com/articles/2019-09-05-6

Liu6

2019 年 10 月 10 日

@TimePPT 感谢！我去瞅瞅

misaki321

2019 年 10 月 10 日

svm 已经不适合这类题目了
用词向量+神经网络

Liu6

2019 年 10 月 10 日

@misaki321 神经网络一开始有考虑但是我个人觉得最根本的原因是数据处理的不好我把中文进行了 label 编码了我觉得这个是主要原因我就一直不知道中文应该怎么处理

xwhxbg

2019 年 10 月 10 日

bert 中文，把最后一层替换输出就行了，既不用分词也不用手动词向量，更不用手工提取特征

xwhxbg

2019 年 10 月 10 日

首先震惊于这个比赛奖励居然是 100w，其次发现这是个训练赛，不知所以。。。
我用 bert 随便跑了一个 epoch，validation acc 0.91 看排行榜基本能进前 50 了。。。
https://colab.research.google.com/drive/1j9cBSsitjm2igaj50u9pwtu56XY3uBYg

Liu6

2019 年 10 月 10 日

@xwhxbg 我没有接触过 Bert 今天下午也看了一下 Bert 但是有点懵!!

各位 大佬们 关于机器学习 数据集中特征少

各位大佬们关于机器学习数据集中特征少