数据汪导读:昨天的315大会曝光了仅用千元即可在购物网站大幅提高信誉和销量的手段,再度引发社会对这些发布虚假评论的好评师、差评师的关注
与其依赖人工判断评论的真伪,不如 通过互联网和机器学习技术,实现快速高效的科学打假
虚假评论正在毒害互联网
我们将在这里展示机器学习是如何揭露这些虚假评论的
客户情感是一种软性货币
良好的评论是一种具有获利能力的数据,尤其是那些来自于拥有影响力且信誉良好来源的评论,这些评论很快就会被广为传播
换句话说,赢得粉丝和他们的关注将非常关键
当然,这一营销原则也会以相反的方式工作,负面情绪和差评将成为成功路上的绊脚石
丧失信誉后很难再重新赢得信任
如果在社交媒体、电子商务网站或评论网站等公共论坛中一直存在无理指责,那么你无法指望公众会忘记你在去年或是前年受到的恶意诽谤
它们将会永远地玷污你的品牌,即使这些指责毫无依据,即使你完全能够有效地对这些指责予以澄清
不过,让人对在线评论感到震惊的是,这种软性“货币”很容易被伪造
网络空间中充斥着虚假的评论,有的是积极的,有的是负面的
我们可以将“虚假”解释为: 评论者可能冒用其他人的名字,隐藏他们受到“指使”的事实
(他们可能受到了雇佣,存在既得利益,或是希望通过好评获得其他方面物质上的好处,或者是通过差评来打压对手
) 评论者可能使用假名或是匿名,以隐藏自己避免被指认出来
评论者可能是一个能够大量散布貌似合法评论的自动化程序,它能够淹没任何人工发布的真实评论
由于所涉及的欺诈行为分为不同等级,找出虚假在线评论需要我们确认以下几方面的信息: 来源的真实性; 来源对所评论事物的公正性; 来源所发表真实评论的原创性
这是一件非常棘手的事情,特别是难以通过自动方式在这些虚假评论被散布前,或是造成危害前清除它们
在这方面,我近期偶然读到一篇有意思的文章,内容是关于堪萨斯大学正在尝试通过开发机器学习算法发现这些虚假评论
研究人员称,对“更可靠社交媒体经验”的需求推动了他们的这一创新
文章认为,对评论帖子可以进行语义分析(以查找虚拟评论者的动词使用特征)、图解分析(能够评估每名评论者的身份状态与他们所发帖网站之间的联系)、孤立点分析(能够根据所表达的情绪和发帖频率来确定帖子是否在正常范围之外)和行为分析(能够确认虚假评论者是否随着时间和网站的变化不断调整他们的策略以避免被发现)
研究人员正在尝试着对虚假评论攻击进行建模,以图表形式展示“社会学、心理学和技术因素”之间的交互关系
如果网民相信虚假帖子会被及时准确地找出来,那么他们可能会更为信任在线评论
与所有的内容过滤技术一样,反虚假评论算法需要最小化误报率(将真实评论误当作虚假评论)和漏报率(将虚拟评论错误地归为真实评论)
除了使用这些评论来决定这个网站、社区和公司是否值得发生联系的公众之外,那些名誉已处于危险之中的企业和在线实体显然也是利益相关者
如果研究人员能够成功地用机器学习算法来解决这问题,那么他们的工作就能够避免在线网站自己充当警察来判断哪些是虚假评论了
它们还能够帮助发现哪些有可能是虚假评论者,从而对他们进行深入调查,阻止他们访问网站,甚至是交给有关部门对他们进行惩处
如果研究人员希望研发出具有实用价值的算法,那么他们需要让算法具备快捷、高效、可并行处理和自动化等特点
此外,这一算法还需要具备当今尖端的反垃圾邮件、反钓鱼和反恶意软件技术所具备的云扩展性
正如没有人希望手工过滤掉那些多如牛毛的骗子一样,没有人愿意自己判断“这家餐馆的菜真难吃”这句评论是真正用餐者的真实声音,还是对面街区上竞争对手的蓄意差评
这一举措实际上是要找出真实与虚假之间的分界线
目前反讥讽算法也在尝试着通过不同的结论找出这样一条分界线
来源:网界网 BeagleData 天云 ▪ 大数据的布道者 天云大数据由中国宽带之父田溯宁投资组建,专注大数据平台软件、算法、工具开发和数据运营的科技创新公司
北京祥云工程代表企业,中关村大数据产业联盟成员,被硅谷GigaOM大数据先锋评论冠以改变中国云计算最有影响力的企业