导师比较坑爹,只给了个这么个方向就了无音讯了。
目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。
有个学长大概给了个思路:
然而我承认比较学渣,也没看的懂他说的意思。。。
所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?
说到底就是,我现在到底应该干什么😂,越具体越好。现在完全无从下手
如有帮助,万分感谢🙏
|      1webfamer      2019-03-09 09:20:56 +08:00 via Android 我的毕设题是  基于模糊控制的智能油烟机..... | 
|  |      2dangyuluo      2019-03-09 09:21:08 +08:00  38 ```python rumor_words=["彻底出名了", "恳请帮忙", "马上就删了", "危害更大", "剧毒", "最新!", ...] for f in rumor_words: if f in text: return true ``` | 
|      3yangzhezjgs      2019-03-09 09:21:30 +08:00 先了解一下文本分类的概念,然后了解分词,文本向量化(word2vec 等),最后分类算法 《机器学习实战》第四章有个文本分类的例子,你可以学习一下,入个门 https://book.douban.com/subject/24703171/ | 
|      4greatx      2019-03-09 09:22:47 +08:00 为什么不在百度学术 /谷歌学术之类的网站搜一搜关键词,了解一下别人怎么做的。 | 
|  |      5yx1100 OP @yangzhezjgs 我在图书馆借了一本周志华的《机器学习》(那本西瓜书)。我简单翻了一下,那个是不是好像偏理论?你推荐的这个是偏实战操作的? 😂我现在就是时间不是很多了,所以想能直接上手做完就够了,没那么多时间从头再学了。 先谢谢你的帮助 | 
|  |      6swulling      2019-03-09 09:28:28 +08:00 via iPhone 机器学习什么时候能识别谣言了?随便做做吧… | 
|  |      7yx1100 OP @greatx 搜过了,并不多。相关的论文期刊都是一些偏理论讨论的,都是些算法之类的。并没有具体怎么做的。我们导师的要求是要「基本」(通过率不做过高的要求)能实现这个功能,他也说了,目前这个方向研究的人并不是特别的多 | 
|  |      8xfcy      2019-03-09 09:29:32 +08:00 via Android 扒一下腾讯较真的 api (//∇//) | 
|      9yangzhezjgs      2019-03-09 09:29:37 +08:00 @yx1100 是偏实际操作的,但是未必符合你的要求 | 
|  |      10necomancer      2019-03-09 09:29:39 +08:00 | 
|  |      11yx1100 OP @swulling emmm,我就是因为不太懂,所以只是大概了解一下「可能」是这个方向。如果我说的不对,还希望能指明一下 | 
|  |      12wobushizhangsan      2019-03-09 09:30:35 +08:00 via Android 前段时间看了一个谣言判断的,忘了是哪家的了。大概意思是看这个消息被哪些人转发过,有没有知名人士评论,如果有相关专业的知名人士给背书,大概率是真的。 | 
|  |      13lhx2008      2019-03-09 09:32:18 +08:00 via Android 就那么几种训练方法,主要是分词和词选择,人工打表估计准确率也不会低 | 
|  |      14clifftts      2019-03-09 09:34:00 +08:00 阿里达摩院不是出了一个谣言粉碎机嘛 | 
|      15zzj0311      2019-03-09 09:36:05 +08:00 via Android 这种反正肯定做不好的东西就 xjb 扯就对了 | 
|  |      16J0G57faC6uPo75W0      2019-03-09 09:36:05 +08:00 via Android 很好奇,谣言中能有什么识别特征。。 | 
|  |      17xiaomimei      2019-03-09 09:39:03 +08:00 via Android | 
|  |      19yx1100 OP | 
|  |      20yx1100 OP  1 | 
|  |      21murmur      2019-03-09 09:54:08 +08:00  5 人都识别不了谣言 机器怎么识别 难道是先用爬虫爬江宁婆婆的微博 然后和被识别文章对比? | 
|  |      22zjsxwc      2019-03-09 10:01:41 +08:00 监督学习 能够 判断 这句 “明天股票要涨了”  算不算谣言? 如果可以的话,楼主可以发财了! 233333333 | 
|  |      23anteros      2019-03-09 10:02:25 +08:00 连人都识别不了谣言,你这毕设主题也太托大了吧 | 
|  |      24anteros      2019-03-09 10:03:43 +08:00  1 比如,惊!赶紧看!世界上第一个可以识别谣言的程序!这本身就是谣言 | 
|  |      25bumz      2019-03-09 10:07:56 +08:00 如果把谣言定义为「与事实不符的言论」,那想机器识别谣言,先得具有强人工智能,既能自己了解和考证事实,又能完全理解人类语言。然而人类语言的模糊性决定了许多陈述压根无从判定,例如「明天下雨」,哪下雨,什么时候下雨,下多少算下雨?有些地方成天下雨,是不是也算? 如果把谣言定义为「看上去像谣言的言论」,「带有煽动性语言的言论」,那么简单地只要关键词匹配,复杂一点的用大量样例让机器自己学习,可以用统计学方法,也可以用正火的神经网络 | 
|      26lrxiao      2019-03-09 10:12:43 +08:00 | 
|  |      27necomancer      2019-03-09 10:19:15 +08:00 @yx1100 你要是用校园网应该能直接下啊?学校不一般都买版权的吗?..... 要不去找找 sci-hub 一类的网站吧 | 
|  |      28Yvette      2019-03-09 10:19:36 +08:00 你搜一些用 SVM 做 Sentimental Analysis 的(英文)博客看看就好,很多都会把代码贴上去,动手试试大概就理解一些了。或者看看吴恩达的讲义,大概知道是什么东西之后就能看懂你学长给的思路了。本质上跟你的这个差不多,就是中英文的 NLP 可能有些区别。 | 
|  |      29zst      2019-03-09 10:19:50 +08:00 via Android 讲道理如果是公众号文章的话,开头一堆花花绿绿的求关注的八成都是谣言 | 
|  |      30cnkuner      2019-03-09 10:20:50 +08:00 via Android 这玩意如果你考虑上机器学习,就要涉及自然语意、分词、词性、表达情感这些东西。建议你总结个关键词列表比较容易,比如震惊、致癌、不转不是中国人、删前速看这种。 | 
|  |      31reechangs      2019-03-09 10:21:39 +08:00 via Android 这个题目选的真的糟糕...... | 
|  |      32pkokp8      2019-03-09 10:24:17 +08:00 via Android 爬取信息,上传公安局,网警进行核查,等待并爬取书面结果,返回 | 
|      33scdylk      2019-03-09 10:35:05 +08:00 via iPhone 都三月了 现在才开始看理论来不及吧 先看 python 基本使用 看看 numpy jieba sklearn nltk 的基本使用方法 最后找找文本分类的几个例子套用进去。 | 
|      34asdqaz      2019-03-09 10:39:26 +08:00 via Android 反向对比 科学没提过,就判定谣言 | 
|      35Lax      2019-03-09 10:47:56 +08:00 事实判断没办法做啊! 从谣言定义来看,可以暂时抛开事实判断这一步。 找个角度,比如可以先看因果论证(证据 /推理链)是不是完整,缺乏证据或推理不完整的判定为谣言。 比如楼上说“明天股票要涨了”缺前提条件和推理过程,直接就分到谣言里。 | 
|  |      37juju123      2019-03-09 10:50:34 +08:00 这个主题很坑,目前谣言识别主要还是靠人工,不过系统可以作为辅助。系统做简单点,建一个谣言关键词库,一个文章里包含谣言关键词的比例达到多少可能是谣言。 | 
|  |      38xianxiaobo      2019-03-09 10:53:35 +08:00 找一个谣言库,找一个不是谣言的库,反复练习? | 
|  |      39R18      2019-03-09 10:54:32 +08:00 via Android 调用各大厂商的接口 :) | 
|      40gam2046      2019-03-09 10:57:03 +08:00  1 谣言怎么定义? 是基于客观世界的事实做出的判断,而不是特定的语法结构或句式。换而言之,这个真的可以用机器学习嘛? 举个例子来说,今天我说“朝鲜把美国从地球上抹除了”,这显然是谣言,但是如果明天,这件事真的发生了,那就不是谣言了。但是这句话本身并没有变,而是客观世界发生了改变。 那么问题来了,机器学习的判断依据,也就是客观世界的每时每刻的变化,要源源不断的进行输入,这是否有可能实现?我简单的理解,基于神经网络的机器学习,最终就是一个多项式求和。然而由于判断依据一直在发生改变(客观世界一直在变化),那么这个多项式中每一项的权重都在大幅度的变化,这个多项式最终是否真的能够收敛? | 
|      41ifxo      2019-03-09 10:58:02 +08:00 首先得有可靠消息源吧,不然是不是谣言怎么能分辨呢,除了人工没有办法 | 
|  |      42ex2vkf      2019-03-09 10:58:50 +08:00 建议去看看推特有没有合适的数据 | 
|      43lxy42      2019-03-09 11:02:53 +08:00 via Android 和垃圾邮件识别有一点点类似,关键是谣言就算是普通人也难以识别。简单点的话就按照垃圾邮件识别的套路去做。 | 
|  |      44FrankFang128      2019-03-09 11:05:10 +08:00 看外链个数和外链域名 | 
|  |      45Williamongh      2019-03-09 11:18:04 +08:00 @lxy42 这位说的很有道理。建议 LZ 直接搜索学习一下垃圾邮件识别的算法,搞一下。 | 
|      46v2et      2019-03-09 11:23:07 +08:00 怎么感觉做出来都可以发 paper 了…… | 
|      47vicvinc      2019-03-09 11:35:14 +08:00 我来冒充个大神,分词 => KenLM 提取特征向量 => 谣言 Model | 
|      48dxgfalcongbit      2019-03-09 11:35:14 +08:00 鸵鸟政策就是个谣言,而且还传得很广,人在近距离观察鸵鸟时凭直觉就能明白这是个谣言,用网络信息来辨别这个谣言反倒有些困难。 | 
|  |      49midasplus      2019-03-09 11:38:37 +08:00 via Android 这有点难吧…… | 
|      50summer1988      2019-03-09 11:40:35 +08:00 1. 首先你需要一个爬虫, 采集语料, 监控各大新闻论坛博主 2. 你需要 GOOLE 3. 你需要图书馆 4. 你需要你自己干 | 
|  |      51catalina      2019-03-09 11:47:21 +08:00 via Android  2 “阿里技术”公号前几天写了一篇讲“谣言粉碎机”的原理的文章: https://s2.ax1x.com/2019/03/09/ASt27T.jpg | 
|  |      52Eugene1024      2019-03-09 11:48:01 +08:00 训练语义识别  先识别简单的,而且你需要想下无论是你的程序也好算法也好是如何判断谣言的,后面可以逐逐渐优化 | 
|  |      53Monstercat      2019-03-09 11:49:29 +08:00 via Android 单纯靠语义分析是不可能的 | 
|  |      54waruqi      2019-03-09 11:53:59 +08:00 via Android 现在什么都要扯上 ai 机器学习 智能 等字样 连毕设也如此了 哎。 | 
|  |      55mosir      2019-03-09 12:00:34 +08:00  1 1、收集已被认定的谣言,这个现在数量不少了。 2、利用现有的分词处理模块,这里也可以选几种简单比较一下。 3、然后用几种常见的方法处理训练就好了,推荐你找找贝叶斯、KNN 等关键词,你要有点野心,可以多找些分类器。 4、分析总结,提出可能的改进方向。 本科毕业设计重在利用现有技术进行分析比较,你稍微综合一下就好了,能有点创新那就是锦上添花,妥妥的优秀毕设了。 | 
|      56siyushin      2019-03-09 12:00:41 +08:00 回溯源头,按是不是出自正规媒体加权。 | 
|  |      57Raffaelloo      2019-03-09 12:01:34 +08:00 本科毕设都这水平了啊,可怕。我觉得吧从社区论坛媒体用户数据画像下手会比从谣言本身下手容易。毕设主要的是过,你懂的,不适合做钻研技术 | 
|  |      58otakustay      2019-03-09 12:01:45 +08:00 function isFakeBroadcasting(anyThingYouLike) { return true; } 我说上面这算法 70%成功率不过分吧? | 
|  |      59glfpes      2019-03-09 12:02:37 +08:00 via Android  2 什么是谣言,什么不是,连人自己都不知道。 不是讲的多的观点就是对的。 | 
|  |      60glfpes      2019-03-09 12:04:03 +08:00 via Android 举个例子,老太太摔倒了,是讹人还是真的受害者?这你让机器去判断是不可能的。 | 
|      61siyemiaokube      2019-03-09 12:15:03 +08:00 via iPhone 赶紧换题目吧,这题目做好卖给 Facebook 一辈子不用愁了。多少人想打击 fake news,轮得上一个本科生搞? | 
|      62LU35      2019-03-09 12:26:50 +08:00 via Android @yx1100  你这是要打脸嘛? 原创译文 | 为什么 AI 不能解决 Facebook 的虚假新闻问题 https://cloud.tencent.com/developer/article/1100933 原文 https://www.theverge.com/2018/4/5/17202886/facebook-fake-news-moderation-ai-challenges | 
|      631648820920      2019-03-09 12:31:41 +08:00  1 感觉选这种题目是想延迟毕业。。 | 
|  |      64crab      2019-03-09 12:32:18 +08:00  1 @wobushizhangsan 背书还是会翻车的。某年亚视报道某人挂了,最后还活着。 | 
|  |      65yx1100 OP @LU35 请问,怎么打脸了?我不是很懂你这个语气。 况且这只是我的一个毕设题目而已,主动权并不在我的手上。 如果你想说是我主动选的,确实是,但我之前是缺乏了解。现实情况是当时我也不会和我的导师去理论说,这个到底能不能做出,我只能是被动的去选择它。 | 
|  |      66mscb      2019-03-09 12:35:37 +08:00 via Android 如果是想应用机器学习,那么可以先好好考虑如何提取特征,但是单纯从文章本身很难看出来是否为谣言,需要从其他方面寻找特征。所以我认为这个课题应该是偏信息聚合方面的,机器学习方面的技术可以成为信息聚合的辅助。可以从人如何验证某个观点是否为谣言的角度出发来实现。 所以大概可以分为这么几步: 1 文章关键信息提取,信息蒸馏。可以看看相关 paper,如果不太会的话就用“主题模型”等这些算法提取一下文章关键词。 2 爬虫,爬去相关比较专业的网站。比如一些期刊一些国际医疗组织的文章等等。这个比较麻烦,这些数据直接决定了最终效果。 3 想办法对这些专业网站的关键信息进行提取,以能准确提取出一个“专业观点”为目的。这个是最难的,这些文章很专业,和网络上的流水文不一样。 4 如果能完成第 3 步,接下来就是文章关键词和专业观点匹配了,这个相对来说简单一点。 5 得到观点匹配数据以后,就能把这个作为特征(关键词匹配度,相关专业文章的权重,时效性等等),搞个神经网络、SVM、决策树什么的进行二分类。 我认为做这个课题难度太大了😂,建议选点简单的。 | 
|  |      67largecat      2019-03-09 12:38:19 +08:00 via Android 在商言商,在计算机圈只能想到编程, 我觉得这个问题可以脱离编程,人工智能也更加遥远 可以考虑一些社会学工程类的想法啊。 比如有一个纯公益平台,非盈利性,就像维基百科,大家想找什么东西真伪都会去这个平台, 而且提供一个通用接口,和几大互联网大平台合作比如百度腾讯(你这个是论文,尽管放开想象,百度腾讯不一定会给你机会合作,反正就是假设嘛,), 和他们合作并在一些比较偏僻的角落或者聊天创建偶尔甚至一天只一次,闪现一个真伪短句按钮,用户只需要是还是否给予反馈。 平台根据全国用户的反馈来做一些分析,但是简单多了, | 
|      68LU35      2019-03-09 12:39:36 +08:00 via Android  1 | 
|      69lxy42      2019-03-09 12:44:30 +08:00 via Android 可能这个毕设的目的还是侧重理论分析,然后写一个 demo 级别的程序去验证。实现 100%功能是不太可能的。 | 
|  |      70ayase252      2019-03-09 12:51:55 +08:00 via iPhone 首先先明确一下问题,是识别句子“看起来像”谣言还是识别句子“是”谣言。这两个问题的难度可是天差地别的。 | 
|  |      71yx1100 OP @LU35 首先,我承认我没有第一时间去查证。但是,即使你发的那篇文章也只是一家之词,如果真的毫无希望,为什么国内外还有那么多人在研究?其次,题目是老师出的让我们选的,我不会想着说老师会出个根本做不出来的东西来刁难我的。然后,我觉得大多数人都在给我提供帮助,其他人也只是说难,并没有所谓的「众多大佬说做不了」。最后,我很清楚的说了,我只是来求个思路的,我也没要有人直接给我一个或者我要一个现成的东西,我觉得大家都是在平等的交流而已,我也不觉得就算我真的有本事做出来,就是打谁的脸了。 完毕。 我希望还是说技术的多,不要再有这些情绪方面的争论了。再有我也不想回复了。仁者见仁,智者见智吧。 | 
|  |      72yx1100 OP @lxy42 是的,我问了我以前的学长,差不多到这个程度,毕设就可以通过了。其实我就是想安心毕业,也不是要真的做出个啥东西来😂 | 
|      73xxgirl2      2019-03-09 12:55:39 +08:00 | 
|  |      74grimpil      2019-03-09 13:09:16 +08:00 via Android 难道只有做到 100%识别谣言才有意义? | 
|      75asdqaz      2019-03-09 13:16:06 +08:00 via Android 另外,楼主做不到太高,甚至会大量误伤 从微信到工信部,文化部再到中科院 都想要这样的东西 | 
|  |      76yuikns      2019-03-09 13:16:48 +08:00  1 我没做过。这个做得非常准确很难,f1 跑个 80, 90 还是不困难的。主要是低水平的太多了。 下面有个我小时候的习作,大致就是 dataset 下面有两个目录,分别是 baseball 相关的邮件和 hockey 相关的邮件。 https://github.com/yuikns/hello-perceptron 然后随机 shuffle 后用最粗糙的感知机做个 training 和 testing。 英文邮件最重要的处理是 stem,就是取词干,去停用词。中文最重要的是分词,然后去停用词。 然后每个文本样品通过上面的处理得到一个非常粗糙的 n 维数组( Xn ) 以及一个标记 1 或者 0 的 Y。 perceptron, svm 等等判别模型的目标就是假定存在一个方程 x1*w1 + x2 *w2 +..... xn * wn + b = y 你先抽取各个 feature X 以及结果 y, 然后丢模型里面训练出一组 W 和 b。 生成 x 的方法有很多,nlp 的话,最简单的跑个词袋,弄个 w2v 什么。然后拉出 feature 后丢过去跑就是。 经典机器模型用 svmlight 或者 xgboost,不行的话拿 pytorch 撸个 cnn 什么也行。参数随便选选,然后降个纬随便看看。其实跑个中不溜秋的结果还是可以的。 | 
|  |      77yuikns      2019-03-09 13:21:35 +08:00  1 丢两个以前无聊随手写的科普 https://blog.argcv.com/articles/2857.c https://blog.argcv.com/articles/1036.c 工具的话,看看这些: xgboost: https://xgboost.readthedocs.io/en/latest/index.html svmlight: http://svmlight.joachims.org/ 台大的 libsvm 也挺好玩的,他们老板当年每年换学生重新实现,我还见过几个。https://www.csie.ntu.edu.tw/~cjlin/libsvm/ fb 的 fasttext 也值得看看 https://github.com/facebookresearch/fastText/ | 
|  |      78yuikns      2019-03-09 13:23:31 +08:00 特征是语言表述的特征,你人看到这些特征后,要想办法把它变成一个 n 维的向量。机器学习是帮你划出一个超平面,面的这边是谣言,那边不是。 有多少人工就有多少智能,就是对这种学习的总结。over | 
|  |      79watzds      2019-03-09 13:29:48 +08:00 via Android 机器学习就是需要足够特征 | 
|  |      80KevZhi      2019-03-09 13:34:34 +08:00 via iPhone  1 换个思路吧 比如百度网盘的鉴黄 与其机器学习识别视频内容,不如收集用户行为习惯,看是哪些视频经常被快进了看,而且源于同一人 真要是说通过识别文章内容主体,让机器去理解,估计目前你还是做不到的 不如去识别来源及传播的特征,辅以原始但成熟的关键词过滤想想家族群里的老人转发的都是什么吧 | 
|      81fox0001      2019-03-09 13:45:12 +08:00 via Android 导师不想你毕业了?要不去看看小马怎么解决假新闻? | 
|  |      82KevZhi      2019-03-09 13:46:27 +08:00 via iPhone 说到这,不得不说一下有些目标用户群是中老年人的微信公众号,其内容绝大部分是耸人听闻的假新闻、国际关系类谣言、错误的医疗常识、不符合主流价值观的家庭关系类故事(婆媳关系居多)、标题党、震惊、沸腾。 从我个人来看,微信官方完全是在对这种行为置之不理。这种公众号已经成为产业链了,雇佣会打字的低学历人员,批量生产这些文章,文章质量就是“能过微信反抄袭”就行,一个工作室下有若干这样的公众号。 | 
|  |      83yuikns      2019-03-09 13:50:42 +08:00 这个问题其实很 straightforward。就是尝试分辨谣言传播者在制造这些句子的时候,不自觉使用的异常用词习惯。如果前面说的假设为真,那么有几千个标注好的训练集,很容易就能弄出一个比乱猜要高得多的预测结果。 很大多数的谣言,其实水平都非常低下。而这种问题主要是吊打各种低级黑子的。 楼上有些没玩过的能不能别乱撺掇...你们都在说啥啊 | 
|  |      84LingJi      2019-03-09 13:51:52 +08:00 关键是提取谣言的特征,一种是人为定义特征或规则,这是专家系统的思路;还有一种就是采集足够的谣言数据,利用深度学习或机器学习的算法,自动提取特征。一个可用的系统,可能需要两者结合起来。首先,需要针对微信公众号、微博喜欢传谣的人,比如公知之类的,爬取他们的数据,制作成一个数据集,如果能搞个几十万或数百万的数据集,基本上可以进入下一步了。 | 
|  |      85no1xsyzy      2019-03-09 13:54:46 +08:00 机器学习不就是做特征识别吗? 特性 不是 特征。 另外,我拍脑袋想到的: 1. 谣言具有更强的文字情绪特征,比如 “不转不是中国人” “震惊!” “竟然” 2. 人名 查无此人,组织名 查无此组织,地名 查无此地 ……另外我觉得做出来可以和 OpenAI 的那个假新闻生成器相提并论了。 | 
|  |      86oisc      2019-03-09 14:14:47 +08:00 自然语言处理很多工作其实都是对语料的处理和特征工程,机器学习算法也是依赖特征的。 1. 我建议你先从平衡语料的构建开始,可以分几个主题比如关于医学、新闻等每个主题去收集一些正负样例,样例的正负比例尽量均衡。每个样例标注上所属的主题类别、是否是假新闻、来源、时间等。然后把你构建的语料进行划分,可以划分为训练集和测试集,也可以留一部分做开发集,如果你不想用交叉验证的话。 2. 对你构建的语料库进行预处理,包括分词、词性标注等 3. 基于一个有监督的机器学习算法完成模型的训练和性能评价,比如最简单的先用 ngram、tfidf,lda 等方法提取离散特征,然后用 SVM 分类,或者用现在比较流行的 LSTM CNN4text 等模型。 等你熟悉流程和数据之后,就可以从数据上做一些文章,看哪些方面可以改进的。 | 
|  |      87oisc      2019-03-09 14:26:13 +08:00 如果不做中文的,其实已经有现成的数据集可以用了,https://github.com/KaiDMML/FakeNewsNet | 
|  |      88liyi      2019-03-09 14:43:57 +08:00 感觉可以降低问题难度,先做个简化版,把进行谣言识别的范围缩小到对指定谣言的识别,例如只识别转基因相关的谣言,就先识别话题,不是转基因的都不用管,然后再识别是不是谣言 这样范围小一点,就算机器学不会,你自己多看看也能找到规律,能有点事做 | 
|      89yangyaofei      2019-03-09 14:45:27 +08:00 via Android 首先爬数据,思路可以是根据用户发帖的数量个关系网来确定,水军的特征和正常用户的特征是不一样的 | 
|  |      91lihua      2019-03-09 14:55:57 +08:00 via Android  1 人日亩产万斤了解一下 | 
|  |      92yepinf      2019-03-09 15:16:15 +08:00 哈哈 我对这个也相当感兴趣, lz 可以来个联系方式,咱们一起折腾哈 | 
|      9323f0baf3      2019-03-09 15:50:39 +08:00 你要搞清楚毕业设计要的是什么,要的是看起来有一定工作量的东西,要的是看起来合理并且过查重的论文,除此以外随便糊吧。网络谣言识别想办法去哪里找个好的数据集,找不到就自己写个爬虫去爬一些数据集(就是几万条正常新闻和谣言,从一些谣言举报平台之类的爬)。找个现成的分词算法,找些现成的分类器,把数据全扔进去,出个结果,不同分类算法各自准确率。最后出来的结果又不用发表,又不用公开代码,言之有理即可。 请自觉遵守学术诚信和学术道德,不对此造成的一切后果负责,后果自负。 | 
|  |      94bxb100      2019-03-09 15:54:15 +08:00 via Android 我觉得你能有个百万谣言数据都可以不用做结论就能毕业了 | 
|      95robinshi2010      2019-03-09 16:04:33 +08:00 时间不错+完全没思路=挂 | 
|      96jssyxzy      2019-03-09 16:23:29 +08:00 你的导师和学长应该告诉你第一步是读论文吧。 | 
|      97jssyxzy      2019-03-09 16:25:59 +08:00 就是总结出特征,然后用 svm 之类就可以, 了解下 svm 之类算法, 读下谣言有哪些特征,自己发散思考下 | 
|      98jssyxzy      2019-03-09 16:26:14 +08:00 你学长说的很对。 | 
|  |      99murmur      2019-03-09 16:34:28 +08:00 "网络谣言诞生具有一些典型特征,传播特性是其中一个重要特征。" 你们导师太小看现在的网络了 现在是记者造谣 辟谣成本极高 还记得缝肛门那个案子吧 直接就是记者造谣 这谣言直接毁了一个医生 还有绵阳的医生被逼自杀 现在那个营销号还逍遥法外 一个谣言 要先转到对应的公安局 然后公安去调查所属地是不是真的有案子发生 如果不是 还要查全国有没有类似的案子 被调换了时间 地点 甚至有些是国外的案子故意隐藏重要信息 甚至将图模糊化来蒙蔽视听 都没有 就跟北京那个编造外卖给差评杀你全家的 直接抓人关起来完事 所以说 单从微博一个平台来看 除了各家警方的蓝 V 和新闻联播这种保守型媒体 没一个可信的 尤其是新京报 恶名罩住 | 
|  |      100Aixtuz      2019-03-09 16:43:01 +08:00 对其中一种谣言的特征有印象: 内容大量重复,时间地点只有模糊值: 比如只有月日周没有年,只有昨天、这星期、月底前之类的模糊时间, 比如某某路、某某公园之类的模糊地点。 且在泛滥的谣言,往往会因为无脑转发而在原文之外的发布平台或转发人补充内容中, 出现各种不同的年月日和省市区等精确值。 |