文章目录
- 背景
- Motivation
- Related Work
- Approach
- Data
- Metrics
- implementation details
背景
- 腾讯AI Lab主导,与美国北卡罗来纳大学教堂山分校(UNC)合作完成。提出了一种增强视频描述生成的连贯性的循环Transformer结构MART,使用记忆存储单元增强transformer架构,实现递归模型。这个记忆存储单元从视频片段和句子历史记录,生成高度汇总的记忆state,帮助预测。实验证明,MART可以产生更连贯、没有重复、具有相关性的文本。
- paper:https://www.aclweb/anthology/2020.acl-main.233.pdf
- github:https://github/jayleicn/recurrent-transformer
- TVCaption:https://github/jayleicn/TVCaption(ECCV2020)
- Video:https://slideslive/38929078/mart-memoryaugmented-recurrent-transformer-for-coherent-video-paragraph-captioning
Motivation
- 问题:之前的dense video caption方法对每个segment独立decode,缺乏对上下文信息(video&text)的利用。
Related Work
- Xiong2018 使用LSTM hidden states对之前生成的文本进行建模传递到解码阶段
- Park2019 (AdvInf) 对LSTM进行改进,使用三个鉴别器衡量相关性、文本多样性和连贯性
- Zhou2018第一次使用Transformer解决video paragraph captioning任务(baseline)
- Dai2019 (transformer-xl) 定义context fragmentation问题,认为是没有上下文视频输入因此没有长时间依赖造成的不连贯/重复,所以加了循环。与之相比,本文MART使用memory能更有效地传递语义线索给未来的句子。
Approach
Vanilla transformer
MART(left) transformer-XL(right)
- Vanilla transformer:N encoder layers N decoder layers,每层encoder都把上一层的隐状态作为输入然后做self-attention,输出用一个前馈网络映射,每层decoder用masked multi-head attention编码上一层隐状态。每层encoder、decoder都用了餐叉链接和layer-normalization。缺点:encoder和decoder是分离的。
- MART:type embedding vectors表征输入token是video还是text的。position embedding只编码text token positions用于生成单词和计算loss。然后编码器和解码器是一起的,Memory Updater的公式:
输入是当前segment的hidden state和之前memory state,输出是当前memory state。其中,C是Cell State,Z是Update Gate,决定是否保留memory state。圆圈是Hadamard product。结构跟LSTM非常相似。
- Transformer-XL:使用循环机制获取长时间依赖。SG代表stop-gradient,保存GPU memory和computation。
Data
- Dataset:ActivityNet Captions和YouCookII,其中Anet的val一个segment对应2个paragraph,被分为两个部分,2460 for val,2457 for test。
- Feature:用的masked transformer的,2fps, Zhou2018 provided,如下两部分normalized and concatenated
- 2048D RGB ImageNet image recognition feature from flatten-673 in ResNet-200。
- 1024D ActivityNet action recognition feature from global pool layer iof BN-Inception。
- 预处理:video 100 text 20 长度。anet 6 yc2 12 视频分段。单词至少出现5次in anet 3次in yc2,最终词典分别3544和992words。
Metrics
- Standard metircis:BLEU@4 ,METEOR,CIDEr-D (Higher = better)
- Repetition:R@4,degree of N-gram (N=4) repetition in a paragraph ( Less = better)
implementation details
- hidden size 768 transformer layers 2 attention heal 12 recurrent memory 1
- adam 1e-4 b1=0.9 b2=0.999 L2 decay 0.01 50 epochs batch size 16
- greedy decoding without beam search
结论:transformer比lstm提升了一点性能,本文使用MART比Transformer-XL方法生成的文本更连贯、没有重复性,说明更能解决长时间依赖问题,是dense video captioning的sota。
更多推荐
ACL20|MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph
发布评论