7Papers - 颜水成、黄亮等新论文；目标检测最新SOTA；NLP综述

7Papers - 颜水成、黄亮等新论文；目标检测最新SOTA；NLP综述

美妆资讯

7Papers - 颜水成、黄亮等新论文；目标检测最新SOTA；NLP综述

2023-08-04

#目标

#论文

机器之心整理

参与：一鸣、杜伟

本周论文有：颜水成团队的「PSGAN 一键上妆」，黄亮团队在同传任务的集束搜索上进行了一些改进，同时还有 NLP 相关综述、目标检测最新 SOTA 成果、数字在词嵌入中的处理研究等。

A Survey of the Usages of Deep Learning in Natural Language ProcessingCBNet: A Novel Composite Backbone Network Architecture for Object DetectionA Comparative Study on Transformer vs RNN in Speech ApplicationsDo NLP Models Know Numbers? Probing Numeracy in EmbeddingsHYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative ModelsPSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup TransferSpeculative Beam Search for Simultaneous Translation

论文 1：A Survey of the Usages of Deep Learning in Natural Language Processing

作者：Daniel W. Otter、Julian R. Medina、Jugal K. Kalita论文链接：//p1-tt.byteimg.com/origin/pgc-image/3d0bc7874c7c497e8dc026beccd0729e.jpg" style="width: 650px;">

论文中总结的 Transformer 架构。a）有四个编码器和四个解码器的 Transformer 块；b）编码器的架构，包括一个自注意力层（黄色）和一个前馈网络（绿色）；c）解码器架构，包括自注意力层（黄色）、注意力编码-解码层（紫色）和前馈网络（绿色）。

推荐：自然语言处理进展到哪一步了？本文全面综述了当前自然语言处理领域的研究进展，并探讨了不同 NLP 任务下的研究情况、SOTA 技术，并讨论了未来的研究方向。

论文 2：CBNet: A Novel Composite Backbone Network Architecture for Object Detection

作者：Yudong Liu、Yongtao Wang、Siwei Wang、TingTing Liang、Qijie Zhao、Zhi Tang、Haibin Ling论文链接：//p1-tt.byteimg.com/origin/pgc-image/d6856e2879bc4b35af734c84983e3924.jpg" style="width: 650px;">

CBNet 架构图示。

推荐：目标检测已经是一个非常成熟的领域了，而能够在这一任务上刷新 SOTA 成果非常不易。这篇来自北大和纽约大学石溪分校的论文说明，整合多个主干网络便能刷新最佳效果。

论文 3：A Comparative Study on Transformer vs RNN in Speech Applications

作者：Shigeki Karita、Nanxin Chen、Tomoki Hayashi、Takaaki Hori、Hirofumi Inaguma 等论文链接：//p1-tt.byteimg.com/origin/pgc-image/783b00b2886242a99285a7304c9075a0.jpg" style="width: 650px;">

研究者训练了一个 probing model，基于词嵌入对 [-500, 500] 区间内随机 80% 的整数进行数字解码，如「71」→ 71.0。

推荐：一直不知道词嵌入是怎么处理数字的？这篇论文使用因果推理任务还原了数字字符在词嵌入模型中的被处理的方法，说明词嵌入对于数字的处理同样可行，不论是整数还是浮点数。

论文 5：HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

作者：Sharon Zhou、Mitchell L. Gordon、Ranjay Krishna、Austin Narcomey、Li Fei-Fei、Michael S. Bernstein论文链接：//p1-tt.byteimg.com/origin/pgc-image/c332191e6d824d6f84f49164da746a8a.jpg" style="width: 650px;">

PSGAN 的结果。该模型可让用户控制所要迁移的浓浅程度和图像区域。第一行左侧是仅迁移参照图像的部分妆容风格的结果，第二行左侧则是不同浓浅程度的结果。此外，PSGAN 也能应对图像之间不同的姿态和表情，如图右侧所示。

如图展示了 PSGAN 的框架，其可分为三部分：妆容提炼网络（MDNet）、注意式妆容变形（AMM）模块、卸妆-再化妆网络（DRNet）。

推荐：颜水成团队的这篇论文是 GAN 的一种最新的应用，为我们提供了一种迁移化妆的方法。也许以后再也不需要试试才知道化妆效果了，AI 一键生成，效果拔群。

论文 7：Speculative Beam Search for Simultaneous Translation

作者：Renjie Zheng、Mingbo Ma、Baigong Zheng、Liang Huang论文地址：https://arxiv.org/pdf/1909.05421v1.pdf

摘要：集束搜索是全句翻译任务中广泛使用的技术，但是同声传译领域依然有很多问题。这是因为输出的词总是需要等待语句结束才能确定。特别是最近提出的「wait-k」方法是一个简单而有效的解决方法，在起始等待后，在得到一个输入词的情况下确定一个输出词，但是这样会使得集束搜索变得不可行。为了解决这一问题，研究者提出了一种名为「猜测式集束搜索」的算法，可以隐式地从目标语言模型中提前猜测后几步的结果，用于获得更准确的结果。

推荐：本文作者为百度的黄亮等，在同声传译方面取得了新的进展。

本文链接：//www.cosmedna.com/article/733713186.html