Sarcasm detection论文解析 |用于微博讽刺检测的上下文增强卷积神经网络

论文地址

论文地址：Context-augmented convolutional neural networks for twitter sarcasm detection - ScienceDirect

论文首页

笔记大纲

用于微博讽刺检测的上下文增强卷积神经网络

📅出版年份:2018
📖出版期刊:Neurocomputing
📈影响因子:2
🧑文章作者:Ren Yafeng,Ji Donghong,Ren Han
📍 期刊分区:
JCR分区: Q2 中科院分区升级版: 计算机科学2区中科院分区基础版: 工程技术2区影响因子: 2.0 5年影响因子: 6.0 EI: 是 CCF: C 南农高质量: B

🔎摘要:

近年来，有关 Twitter 讽刺检测的研究越来越多。然而，现有研究有两个局限性。首先，现有工作主要使用离散模型，需要大量人工特征，而获取人工特征的成本可能很高。其次，现有工作大多侧重于根据推文本身进行特征工程，而没有利用目标推文的上下文信息。然而，目标推文的上下文信息（如对话或目标推文作者的历史推文）可能是可用的。为了解决上述两个问题，我们探索了用于微博讽刺检测的神经网络模型。在卷积神经网络的基础上，我们为这项任务提出了两种不同的语境增强神经网络模型。数据集上的结果表明，与最先进的离散模型相比，神经模型可以获得更好的性能。同时，所提出的语境增强神经模型能有效地从语境信息中解码讽刺线索，并相对提高了检测性能。

🌐研究目的:

探索用于微博讽刺检测的神经网络模型。

📰研究背景:

随着社交媒体的发展，twitter 已成为最受欢迎的微博服务之一。因此，基于 twitter 数据的情感分析和数据挖掘已成为一个热门研究课题 [1-3]。twitter 情感分析的目的是自动分析推文的极性。然而，twitter 中的讽刺性话语会将正面或负面话语的极性转化为相反的极性。这在一定程度上会影响情感分析任务的性能。因此，将讽刺性语句与正负极性语句区分开来非常重要。

然而，现有研究有两个局限性。首先，现有工作主要使用离散模型，需要大量人工特征，而获取人工特征的成本可能很高。其次，现有工作大多侧重于根据推文本身进行特征工程，而没有利用目标推文的上下文信息。然而，目标推文的上下文信息（如对话或目标推文作者的历史推文）可能是可用的。

🔬研究方法:

🔩模型架构:

CANN-KEY 模型-历史

在我们提出的 CANN-KEY 模型中，局部子网络由五层组成，分别称为输入层、卷积层、池化层、非线性组合隐藏层和输出层。

左侧部分是本地子网络，使用目标推文的信息。
右侧部分是上下文子网络，使用上下文推文的信息。对于上下文子网络，我们将分别从基于对话的上下文和基于历史的上下文中自动提取特征。

本地子网络

在输入层中，每个节点表示一条推文中的一个单词，节点的顺序按照原来的顺序排列，单词利用词嵌入表示。
卷积层通常被用来捕捉词性 n-grams 信息。本文将卷积操作的窗口大小设为 3，并使用 tanh 作为激活函数。
池化层，对于每条推文，在卷积层之后会得到不同数量的向量。我们利用池化技术来合并卷积层中不同数量的特征，形成一个具有固定维度的向量。本文使用了所有三种汇集技术来全面捕捉讽刺证据，并将它们串联起来作为一个新的隐藏层 h2。
隐藏层使用了一个非线性隐藏层来自动组合这些汇集特征。
输出层用于根据最后一层隐藏层的特征对所有类别标签进行评分。

上下文子网络

基于历史的上下文，然后将所有上下文推文视为一个文档，根据其 tf-idf 值对上下文推文中的所有单词进行排序。其次，我们选择最重要的关键词（tf-idf 值最高的关键词）作为该子网络的输入。
输入层的每个词都是由词嵌入来表示。
池化层依旧采用三种池化串联的方式。
非线性隐藏层会自动结合目标推文和上下文推文的特征。
与本地子网络不同，上下文子网络不使用任何卷积函数，因为上下文信息是一组突出词，不包含 n-grams 信息。