茶具设计论文ACL2022腾讯AILab入选20篇论文：写作助手和交互翻译背后的

喜欢

来源：互联网
|
2022-09-25
|
0 条评论
|
我要分享
|
T小字　 T大字

　　果表白尝试结，利用弱标识表记标帜数据的办法我们的范式优于其他，集 C3 大将开始进的基线%而且在中文多选 MRC 数据，在文中明说的先验常识此中大大都成绩需求未。udent模子来将常识转移到其他使命我们还试图经由过程简朴地微调天生的st，E 上带来 2.9% 的 F1提拔在干系抽取数据集 DialogR，解的非 MRC 使命的潜伏的代价表现了情境常识关于需求的文档理。

　　种数据差别为了减少这，在线的自锻炼办法我们提出了一种，数据来模仿推理的场景它同时利用的伪平行。对上的尝试成果表白在多个普遍利用言语，气势派头和内容上的差异我们的办法经由过程补偿，（XLM和MASS）超越了两个强基线模子。

　　这一差异为了弥合，新奇的两阶段办法本文提出了一种，本天生中的变乱转移计划可明白地建模开放式文。特别锻炼的从粗到细的算法该办法能够了解为一种颠末，供“大略”的变乱骨架此中变乱转换计划器提，天生器会细化骨架而第二阶段的文本。成使命上的尝试表白在两个开放式文本生，有用地进步了天生文本的质量该办法在连接性和多样性方面。

　　fs law 的数据采样战略本文提出了一个基于 Zip，与低频词上锻炼的结果成绩来协助模子更地均衡高频词。果表白尝试结，WSD结果的同时在不损伤高频词，和zero-shot词上面的表示该办法可以大大提拔模子在低频词。

　　Persona-based Dialogue Generation本文由腾讯AI Lab主导A Model-Agnostic Data Manipulation Method for ，学协作完成与悉尼大。智能对话机械报酬了更好地构建，的人物本性信息包罗到天生模子中愈来愈多的研讨开端思索把显式。话的数据巨细凡是受限可是这类人物本性化对，所锻炼出的对话天生模子的机能进而限定了间接利用现无数据。者以为本文作，次要滥觞于两个方面：起首此类使命中数据上的应战，现无数据集的价格很大搜集此类数据来扩大；次其，难度都要比传统对话数据更高该数据集合每个样本的进修。

　　or Unsupervised Neural Machine Translation本文由腾讯AI Lab主导Bridging the Data Gap between Training and Inference f，大学协作完成与上海交通。翻译的主要构成部门作为无监视神经机械，语数据天生伪平行数据回译操纵目的言语的单。是翻译句子的伪平行数据长进行锻炼无监视神经机械翻译模子在这些源端，源端文本停止翻译推理但常常对天然誊写的。了无监视神经机械翻译模子的翻译机能源端数据在锻炼和推理之间的差别障碍。

　　istic Information and Task Performance本文由腾讯AI Lab主导Visualizing the Relationship Between Encoded Lingu，良先端科学手艺大学协作完成与中国科学手艺大学和日本奈，ndings长论文被集会领受为Fi。一种很盛行的办法Probing是，收集模子能否进修到言语学信息它能够阐发一个锻炼好的神经，是但，言学信息能否会影响使命的机能它没法答复改动模子进修到的语。此为，最优的角度动身本文从帕累托，务机能之间的静态干系研讨言语学信息与任。集使得它的每一个元素都满意言语学信息和使命机能两方面的近似最优性它的根本思惟是测验考试处理如许一个优化成绩：优化出一个模子参数的子。此据，为一个多目的优化成绩本文将这个成绩转化，帕累托最优的模子参数子集并提出了一个办法来优化。

　　r Interactive Machine Translation本文由腾讯AI Lab主导BiTIIMT: A Bilingual Text-infilling Method fo，学协作完成与南京大。NMT）经由过程野生干涉交互式机械翻译（I，量的译文输出能够包管高质。CD）：它能够接纳一种灵敏的方法停止翻译现有的交互式体系凡是接纳束缚解码算法（L，右翻译范式的束缚从而制止了自左向。而然，解码的缘故原由因为束缚，翻译质量上存在较着的不敷这类交互体系在翻译服从和。

　　n using Z-Reweighting本文由腾讯AI Lab与香港科技大学协作完成Rare and Zero-shot Word Sense Disambiguatio。然言语内里最中心的成绩之一语义消歧（WSD）不断是自。型和大批的标注数据来获得结果的提拔现有模子凡是依靠于大型的预锻炼模。会晤对数据不均衡散布的成绩可是这类监视进修的办法凡是，常见的词上面结果很好以致于这些模子在比力，词上面结果却很差可是在一些低频。

　　果表白尝试结，下机能明显优于先前的模子该模子在零试进修的场景。包含着多品种型的常识同时发明DIANA中，粒度对话了解层面的才能能够进步模子在多种细。

　　象择要办法来减缓这些应战本文探究了一种新奇的抽。来讲详细，成一个笼统的择要我们的办法进修生，应转录的特定部门同时将择要段对，节停止片面查抄以许可对择要细。提出的办法停止了一系列阐发我们在大型播客数据集上对所，获得了可观的成果并表白该办法能够。择要和转录片断方面带来了较着的益处接地的择要在定位包罗不分歧信息的，动和野生评价目标从而明显地在自，择要质量都进步了。

　　lingual Data in Non-Autoregressive Translation本文由腾讯AI Lab主导Redistributing Low-Frequency Words: Making the Most of Mono，协作完成悉尼大学。归翻译（NAT）模子的主要步调常识蒸馏（KD）是锻炼非自回。AT的模子锻炼它能够简化N，低频词的主要信息但价格是丧失翻译。力的替换计划：单语KD本文提出了一个有吸收。的AT教师来蒸馏分外的单语数据该计划操纵从原始平行数据锻炼，AT门生从而锻炼。西席模子中）和新的单语数据常识通报到NAT门生模子单语KD可以将原始双语数据的常识（隐式编码在AT。进的NAT模子停止的大批尝试表白在8个WMT基准数据集上对2个先，译而一直优于尺度KD办法单语KD经由过程改进低频词翻，何计较开消且不引入任。

　　被收录（含 5 篇 findings）腾讯 AI Lab 共有 20 篇论文，译、文本了解、言语模子等标的目的涵盖对话与文本天生、机械翻。当选论文解读本文为部门。

　　这个成绩为理解决，加强言语模子关于知识的了解才能本文提出将操纵有的知识常识来。来讲详细，个三阶段的模子我们设想了一。 purpose的预锻炼第一阶段为general，知识常识的预锻炼第二阶段为针对，e-tuning第三阶段为fin。得一个知识常识加强的言语模子CoCoLM尝试成果表白如许的一个构造可以协助我们获，使命上获得明显的提拔并在多个下流知识了解。

　　to Pinyin Input Method本文由腾讯AI Lab主导Exploring and Adapting Chinese GPT ，、浙江大学协作完成与新加坡办理大学。锻炼模子适配到拼音输入法的成绩本文次要研讨了将中文GPT的预。发明我们，普遍利用中在GPT的，音输入法的探究仍旧短少对拼。加上拼音的限定颠末对天生历程，T的结果非常凸起全拼场景下的GP，就可以到达SOTA在传统的数据集上。而然，母的情况关于首字，呈现大幅下滑GPT的结果，候选大幅增长相干这与同声母字的。

　　E）停止 AMR 共指剖析的通用预锻炼的办法本文提出了一种基于变分图主动编码器（VGA，通用 AMR 语料库该办法能够操纵任何，动天生的 AMR 数据以至能够AMR模子自。集的尝试表白在尺度数据，的绝对 F1 点的机能提拔预锻炼办法完成了高达 6%。外此，明显地进步了 11% F1 点我们的模子比之前的开始进模子。

　　时同，优良的可扩大性单语KD具有，多计较开消当给定更，D交融或扩展单语数据范围来进一步加强其能够经由过程与尺度KD交融、反向单语K。阐发表白大批的，以有用地交融这些手艺可，KD中丧失的有效信息从而进一步召回在尺度。舞的是使人鼓，合尺度KD后我们的办法融，别得到了30.4和34.1 BLEU值在WMT14英-德和德-英数据集上分。

　　来讲详细，：（i）笼盖普遍的范畴（关于开放范畴使用）三元组该当经由过程以下方法与下流使命连结分歧，义相干的高低文联络起来（ii）将成绩与其语，练retriever）并供给撑持证据（用于训，确谜底（用于锻炼reader）和（iii）在高低文中辨认正。不到此中一项或多项请求已有的预锻炼办法凡是达。

　　名干系带来的本钱为了削减野生命，高低文中来隐式暗示它们之间的干系我们倡议经由过程将如许的元素对置于，为情境常识并将其称。识来改良 MRC为了利用提取的知，情境常识构建的弱标识表记标帜 MRC 数据我们比力了几种微调战略来利用基于，s的teacher-student范式并进一步设想了具有多个teacher，数据中的常识转移以增进弱标识表记标帜MRC。

　　 Language Model本文由腾讯AI Lab与香港科技大学协作完成CoCoLM: Complex Commonsense Enhanced，ndings长论文被集会领受为Fi。出了很强的常识表征才能大范围预锻炼模子展现，展现出了十分强的低阶知识常识的才能可是现有研讨仍旧表白即使这些模子，知识的才能仍旧有所完善他们表征更庞大的高阶。

　　述阐发按照上，顺应的加权抽样办法本文还提出了一种自，升负采样的机能它能够进一步提；别的一个奉献这是本文的。集（CoNLL-2003）上在模仿数据和标注完好的数据,更好的F1值和更快的收敛本文提出的负采样办法获得了；外另，数据（EC）上在实在的漏标注，得了最好的结果该负采样办法获。

　　-ended Text Generation本文由腾讯AI Lab主导Event Transition Planning for Open，海野生智能研讨院协作完成与香港大学、山东大学、上，ndings长论文被集会领受为Fi。本天生使命开放式文，成和故事完成比方对话生，高低文中天生连接的持续需求模子在有限的先前，本天生器带来了新的应战给现今的神经自回归文。善于天生流利的文本虽然这些神经模子，件与能够发作的变乱之间的因果干系但它们很难建模给定高低文中的事。

　　设想的尝试经由过程经心，气势派头差别（即翻译与天然文本气势派头）招致较差的泛化才能我们肯定了源端数据差同性的两个代表性特性：(1）；生倾向目的言语的幻觉内容（2）内容差别诱使模子产。

　　究内容包括从天然言语了解到天生的全部链条腾讯 AI Lab 天然言语处置团队的研，和算法底层机制等实际研讨及对 AI 体系可注释性，I 社辨别享其抢先研讨功效并连续向 NLP 及 A。项体系及数据此前已公布多：

　　上（机械翻译和言语模子）停止了尝试本文在两个天然言语处置的支流使命，信息与使命机能之间的干系并展现了多种差别言语学。果表白尝试结，优于一个基线办法本文提出的办法。时同，法信息有益于两个使命经历成果表白适当的句，招致更好的使命机能可是更多的信息一定，是一个主要的身分由于模子的构造也。

　　tomatic Machine Translation Metrics本文由腾讯AI Lab主导Investigating Data Variance in Evaluations of Au，学手艺大学与中国科，和意大利特伦托大学协作完成日本奈良先端科学手艺大学，ndings短论文被集会领受为Fi。评价时在襟怀，域的单个数据集常常存眷一个领；如比，量评价使命上每一年WMT度，给出了一个数据集消息范畴凡是只。和定量的阐发尝试本文停止了定性，所接纳的数据具有敏理性成果表白襟怀的表示对，接纳的数据变革而变革即襟怀的排序跟着所，滥觞于不异的范畴即便这些数据都。致这个成绩的两个能够缘故原由随后本文进一步阐发了导，即，立同散布假定的违犯非明显的样本点和独。后最，倡议本文，成绩并制止接纳一个数据停止比力在评价襟怀时需求留意数据变革的，会无数据变革的成绩不然得出的结论能够。

　　 Missing Entity Annotations本文由腾讯AI Lab自力完成Rethinking Negative Sampling for Handling。名实体辨认中的漏标注成绩负采样能够有用地处置命。个奉献是本文的一，定性两个角度动身从抽样毛病和不确，办法的有用性阐发了负采样。表白尝试，不愿定性是负采样有用的枢纽较低的抽样毛病率和较高的。稠密性的特性基于定名实体，毛病率为0的几率本文研讨了抽样，几率的一个下界推导出了这个，的长度相干它与句子。

　　 Neural Dialog Generation本文由腾讯AI Lab主导Lexical Knowledge Internalization for，港大学与香，范大学华东师，研讨院协作完成上海野生智能。汇常识嵌入弥补到神经对话模子傍边本文提出利用常识内化的办法来把词。接依靠于一个内部检索到的常识相较于基于常识的对话模子直，辞汇常识嵌入到对话模子的参数傍边该办法测验考试将关于每一个输入单词的。宏大的辞汇常识为了应对范围，比进修的办法本文彩用了对，建了一个词级此外辞汇常识检索器并操纵维基百科的弱监视信息构。模子架构上考证了有用性该办法在多个数据集和。

　　obing on Chinese Grammatical Error Correction本文由腾讯 AI Lab主导“Is Whole Word Masking Always Better for Chinese BERT?”: Pr，学协作完成与复旦大，ndings短论文被集会领受为Fi。个字所对应的一切子词局部停止遮掩全字遮掩(WWM)是一次性地把一，好的英文BERT模子这类战略可以获得更。中文来说可是关于，法朋分的最小字符每个字都是无，词的观点它没有子。文的词区分在于中文的词和英，同的字组合而成中文的词是由不。使得中文BERT具有更好的内容了解才能如许的区分促使我们去研讨能否WWM可以。

　　表白尝试，nsformer和GPT2）在此类使命上的机能该办法能够有用地提拔两种对话天生模子（Tra。

　　ntextualized Commonsense Knowledge本文由腾讯AI Lab主导Improving Machine Reading Comprehension with Co，学协作完成与康奈尔大。MRC) 使命中表示超卓为了在机械浏览了解 (，给定文档中未明白说起的知识常识机械浏览了解模子凡是需求具有。一种新的构造化常识本文旨在脚本中提取，改良 MRC并将其用于。注于脚本我们专，的言语和非言语信息由于它们包罗丰硕，能够作为一条知识常识的元素(argument)对而且在长工夫内由不怜悯势转达的两条相干信息能够，流中配合阐扬感化由于其在一样平常交。

　　or Zero-Shot Dialogue Comprehension本文由腾讯AI Lab主导Learning-by-Narrating: Narrative Pre-training f，教堂山分校协作完成与北卡罗来纳大学。语中的各类枢纽信息对话了解需求捕捉话，话的差别地位大概隐含在话语中这些信息有能够分离于多轮对。此因，多种天然言语了解才能对话了解模子需求综合，推理、隐含常识推理等比方复述、总结、知识。

　　ACL 2022 于本年 5 月 22 日至 27 日举办国际最受存眷的天然言语处置天然言语处置（NLP）顶级集会，下集会及线上集会两部门包罗爱尔兰都柏林的线。

　　g-by-narrating）的预锻炼战略本文提出了一个“边讲边学”（leanin。模子对输入对话的内容停止叙说该战略经由过程在预锻炼过程当中指导，解对话中的枢纽信息从而使模子进修并理。而然，平行语料库可以撑持这类预锻炼战略今朝还没有公然的大范围对话-叙说。此为，影字幕及情节择要数据我们起首搜集了大批电，主动切分和对齐经由过程将两者停止，述平行语料库-DIANA从而构建了一个对话-叙。后然，型停止天生式预锻炼在该语料库上对模，使命中对模子机能停止评价并在四个对话了解的下流。

　　现包罗：第一本文的次要发，要被改正或插入当只要一个字需，预锻炼模子表示更好接纳CLM锻炼的。二第，更多字需求被处置时当持续的两个字及，枢纽性的感化WWM起到了。三第，游使命停止微调时当对句子级此外下，略表示相称几种遮掩策。

　　事情中在这项，dia）中援用的数以百万计的参考文献我们经由过程查阅维基百科（Wikipe，三个尺度的大范围语料库主动构建了一个满意一切。r和reader都有明显的益处构建的语料库对retrieve。已有办法相较于，20 accuracy长进步了2%-10%我们颠末锻炼的retriver在top-，acy最高进步了4%全部体系的accur。

　　此为，文语法纠错相干的探针使命该项事情引入了两个跟中，去改正大概插入一些中笔墨或词它们操纵预锻炼模子自己的方法。集用来完成这两个使命我们构建了一个数据，有10它具,句子和19448个,字的标签075个。了三个模子我们锻炼，字遮掩(CLM)它们别离接纳了，WMW,CLM和WWM和同时接纳。

　　此因，上两点成绩本文针对以，化对话数据处置办法提出了一种新的本性，本性化对话天生模子分离进而提拔其机能该办法自力于模子因而能够和随便一种。数据样本停止蒸馏本文起首对原始，以更简单地拟合蒸馏后的样本散布剔除难以进修的样本进而让模子可。后之，有用地加强蒸馏后的样本利用多种差别的办法来，减缓其数目不敷的成绩使其变得更多样进而。后最，建的数据课程停止锻炼目的模子会利用我们构，馏数据长进行锻炼即先在加强后的蒸，样本长进行锻炼以后再在原始。

　　sion for AMR Coreference Resolution本文由腾讯AI Lab主导Variational Graph Autoencoding as Cheap Supervi，学协作完成与耶鲁大。旨在对暗示统一实体的图节点停止分组对 AMR 之类的语义图的共指剖析，语义暗示的枢纽步调这是机关文档级情势。共指剖析的正文数据借助关于 AMR ，使命中显现出宏大的潜力深度进修办法近来在这项，据而且正文数据的本钱很高但它们凡是需求大批锻炼数。

　　ion of Podcast Transcripts本文由腾讯AI Lab主导Towards Abstractive Grounded Summarizat，大学协作完成与中佛罗里达。疾速提高播客近来，供给者和消耗者都有实践益处播客转录文本的择要对内容，决议能否会收听播客能够协助消耗者快速，编写择要的认知承担并削减内容供给者。而然，临严重应战播客择要面，关的究竟不分歧包罗与输入相。和辨认毛病加重了这个成绩白话记载中的语音不流利。

　　上的发明基于以，高预锻炼模子鄙人游翻译使命上的表示我们提出了两种简约而有用的办法来提，练和输入自顺应包罗范畴内预训。域内单语数据上持续锻炼前者将预锻炼模子在领，翻译使命数据散布上的差别从而减少预锻炼模子与下流。的输入数据停止加噪后者对下流翻译使命，据混淆锻炼翻译使命模子并将加噪数据与原始数，常识迁徙到下流翻译使命模子从而更好的将预锻炼模子的。使命长进行了尝试我们在多个翻译，地进步模子翻译结果和鲁棒性考证了我们的办法能够有用。

　　略来处理这个成绩本文彩取两种策，高低文信息和拼音信息一方面让模子充实利用，程中对同声母字的辨析另外一方面加强锻炼过。输入法的评测为了助力拼音，最新的语料团队基于，的270k的测试汇合构建了跨15个范畴，文的长度和猜测长度组合汇合的样本笼盖多种上。析和溶解显现对模子的分，最初的结果有增进感化模子的两个战略都对。的研讨具有参考意义尝试成果对输入法。

　　training for Neural Machine Translation本文由腾讯AI Lab主导Understanding and Improving Sequence-to-Sequence Pre，尔伯塔大学协作完成与香港中文大学和阿。译体系的序列到序列的预锻炼研讨本研讨旨在了解和改良针对机械翻，预锻炼解码器出格是针对。这个模块能够进步翻译模子的译文的精确性和多样性我们发明序列到序列的预锻炼是一个双刃剑：一方面；方面另外一，游翻译使命的差别因为预锻炼和下，格的偏移和过分自大的成绩预锻炼解码器会引入天生风，模子机能从而限定。

　　颖的交互翻译体系本文提出了一种新，充的交互翻译模子即基于双语文本填。务：关于给定的源言语和野生校正的翻译译文片断它的根本思惟是一个双语文本添补（BiTI）任，从而得到更好的译文主动地停止句子添补。为序列到序列的使命经由过程将这个使命转化，有用的办法来停止完成本文提出了一种简朴。法的劣势是这类完成方，准NMT的服从不异它的解码服从与标，校正的信息停止精确的词猜测并且它能够充实地操纵野生。

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186