论文是发表在哪的

发表论文的平台如下：

1.知网

这里所说的是知网，是清华大学和清华同方共同办的这个数据库。在前些年他也叫中国期刊网，由于后来有人自己建了个网站也叫中国期刊网，自己收录期刊，假李逵装真李逵。玩文字游戏，导致很多作者上当。

所以现在知网对外不称中国期刊网了，就是叫知网。从论文发表来说，知网是最权威的，最有说服力的数据库。

凡是知网收录的期刊，一定是正规的，可以放心大胆的发表的，但是最近这两年知网变得更严格，所以知网收录的期刊发表费用比较贵一些。

2.万方数据库

万方数据库，也是一个比较大的论文数据库，仅次于知网。其权威性和重要性就等于是一个弱化版的知网，但是也是比较大。

从期刊正规性来说，如果一个期刊，知网不收录，但是万方数据库收录，说明还是比较正规的，虽然不如知网收录的那么正规。但是对于一般单位来说够用。

对于大学这样的单位可能必须要求知网。而对于一些企业单位，只要万方数据库能检索到已经发表的论文，就算不错了。所以，万方数据库也是一个必须参考的标准。

3.维普网

维普网在前些年实际上假刊比较多，比较泛滥，这两年所说期刊审核严格，上面审核严格，但是维普网收录的期刊从正规性和权威性上来说，都是严重不如知网和万方数据库。

对于很多要求不高的单位，或者评一些初级职称的单位，只有维普网收录的期刊还能管点用。稍微严格一些的，就不大灵光了。

发表论文通常只有两种渠道，要么自己投，要么找论文发表机构代投，不管走哪种渠道，最后都是要发表到期刊上的。

期刊，也叫杂志，在上个世纪在出版界曾经是重量级的存在，那个时候互联网还没有兴起，人们阅读文章获取资讯远远没有现在方便，杂志就成为一个很重要的传播媒介。

但现在随着社会的进步，科技的发展，纸媒已经大大没落了，很多期刊被砍掉了，剩下来的大多数不得不自谋出路，学术期刊更是如此，因为这个受众面是很窄的，基本没法盈利，所以只能靠收取版面费来维持，当然，有国家财政拨款的那种不在这个范围。

我们现在发表学术论文，出于严谨性权威性等原因的考虑，还是要发表到纸质期刊上，编辑会用电子邮箱或者内部的系统来收稿，但不会有一个网络平台有发表论文的资质，即使是知网和万方这样的网站，也只是论文数据库，并不是论文发表平台。

所以发表论文的时候，还是要先去选取目标期刊，然后再找到这本期刊的投稿邮箱，或者是找到靠谱的论文发表机构，由代理进行代投，最后都是发表到纸质期刊上的，见刊后一两个月左右被知网收录，就可以检索到了。

论文题目：Lexicon Enhanced Chinese Sequence Labeling Using BERT Adapter 论文地址：这是一篇自表于2021 ACL（NLP顶会）的论文。论文提出将字典融入BERT网络层记作字典加强BERT（Lexicon Enhanced BERT，LEBERT) ，用于提升中文标注效果。新模型在命名实体识别、分词、成份标注实验中均达到了目前最佳水平。由于存在分词（CWS）问题，中文面临更大的挑战，对多数任务，以字为单位比以词为单位效果更好。目前大多优化方法都是修改上层（网络末端），而未修改核心网络。文中提出的方法利用字典得到更多可能的分词，动态计算最佳分词方法，并修改了网络的Transformers层，如图-1中的右图所示：模型的核心结构如图-2所示，相对于BERT，LEBERT有两个明显差别：（1）输入变成了字符特征+字典特征（2）字典适配层在Transformer层之间文中方法将基础的字符序列扩展成字符+词对序列，设句S由字符c组成：Sc={c1,c2,c3,...,cn}，在字典D中找到在句中包含字符c所有可能的词ws，如图-3所示：最终生成序列： s_cw={(c1,ws1),(c2,ws2),...(cn,wsn)} 将字符和词信息融入BERT网络的字典适配层，方法如图-4所示：字典适配层有两个输入：字符和词对，即上图中的h和x，其中h是前一个transformer层输出的字符向量，x是m个可能包含该字符的词组成的词嵌入，其中j是m中的第j个词：其中e是预训练得到的词向量映射表。为了对齐长短不一的序列，对词向量进行非线性变换如下：其中W1是大小为dc-dw的矩阵，W2是大小dc-dc的矩阵，b1和b2是偏移，dw是词向量的维度，c是隐藏层的维度。由图-3可知，一个字可能对应多个词，对于不同的任务，最匹配的词可能并不相同。具体算法是使用vi表示第i个字符对应的所有词表，m是该字符可能对应的词个数，计算注意力attention如下：其中W是注意力权重矩阵。然后对每个词乘其权重加和，得到位置i对应的词表示：最终，将词典信息与字符的向量相加，得到了该位置的新向量：处理后的数据再送入dropout层和归一化层继续处理。将字符输入词嵌入层，加入token, segment和position信息，然后将该层输出的词嵌入输入Transformer层：输出的是第l个隐藏层的输出，LN是归一化层，HMAttn是多头注意力机制，FFN是两个前馈网络层，使用ReLU作为激活函数。在k-th和(k+1)-th Transformer之间加入字典信息考虑到标签的前后关系，使用CRF层来预测最终的标签，将最后一个隐藏层h的输出作为输入，计算输出层O：然后将输出层代入CRF模型，计算标签y的概率p。训练时给出句子S和标签Y，计算全句的负对数似然作为误差。解码时，使用维特比算法计算得分最高的序列。论文针对命名实体识别NER，分词CWS、位置POS标注进行了实验，实验数据如表-1所示（中文NLP常用实验数据）。图-5展示了相对于BERT和基于BERT的最新模型，文中模型误差的减少情况。除了与其它模型比较之外，论文还比较了LEBERT方法与在组装模型的Bert+Word方法的差异。

论文标题：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文链接： BERT（Bidirectional Encoder Representations from Transformers）通过预训练来学习无标注数据中的深度双向表示，预训练结束后通过添加一个额外的输出层进行微调，最终在多个NLP任务上实现了SOTA。预训练语言模型在实践中证明对提高很多自然语言处理任务有效，其中包括句子层级的任务，比如自然语言推断（natural language inference）和复述（paraphrasing），还有token层级的任务，比如命名实体识别（named entity recognition）和问答（question answering）。在下游任务中应用预训练语言模型表示的方法有两种：feature-based的方法和fine-tuning的方法。举例来说，ELMo这种预训练语言模型使用feature-based的方法，通过将ELMo的预训练的表示作为额外的特征输入到特定于任务的模型中去；GPT使用fine-tuning的方法，通过引入少量的特定于任务的参数，在下游任务中训练时所有的预训练参数。截止BERT之前的预训练语言模型都是单向的（unidirectional），包括GPT和ELMo，这样的方法对句子层级的任务不是最优的，而且对于token层级的任务比如问答非常有害。BERT使用masked language model（MLM）的方法来预训练，这种方法能够训练一个双向的（directional）语言模型。除了masked language model的预训练的方法，BERT还使用了next sentence prediction的预训练方法。 BERT的使用分为两个阶段：预训练（pre-training）和微调（fine-tuning）。预训练阶段模型通过两种不同的预训练任务来训练无标注数据。微调阶段模型使用预训练参数初始化，然后使用下游任务（downstream task）的标注数据来微调参数。 BERT的一个显著特点是它在不同的任务上有统一的架构，使用时只需要在BERT后面接上下游任务的结构即可使用。 BERT的模型架构是一个多层双向的Transformer的encoder。我们标记模型的层数（每一层是一个Tranformer的block）为，模型的hidden size为，self-attention head的数量为。两个比较通用的BERT架构为和。对比GPT，BERT使用了双向self-attention架构，而GPT使用的是受限的self-attention，即限制每个token只能attend到其左边的token。 BERT的输入表示能够是一个句子或者是一个句子对，这是为了让BERT能够应对各种不同的下游任务。BERT的输入是一个序列，该序列包含一个句子的token或者两个句子结合在一起的token。具体地，我们会将输入的自然语言句子通过 WordPiece embeddings 来转化为token序列。这个token序列的开头要加上 [CLS] 这个特殊的token，最终输出的 [CLS] 这个token的embedding可以看做句子的embedding，可以使用这个embedding来做分类任务。由于句子对被pack到了一起，因此我们需要在token序列中区分它们，具体需要两种方式： ①在token序列中两个句子的token之间添加 [SEP] 这样一个特殊的token； ②我们为每个token添加一个用来学习的embedding来区分token属于句子A还是句子B，这个embedding叫做segment embedding。具体地，BERT的输入由三部分相加组成：token embeddings、segment embeddings和position embeddings。如下图所示： BERT使用两个无监督的任务进行预训练，分别是Masked LM和Next Sentence Prediction(NSP)。如下图所示，我们定义输入的embedding为，BERT最终输出的 [CLS] 的embedding为，最终输出的第个token的embedding为。我们有理由相信一个深度双向模型比left-to-right模型和left-to-right和right-to-left简单连接的模型的效果更加强大。不幸的是，标准的条件语言模型只能够够left-to-right或者right-to-left地训练，这是因为双向条件会使每个token能够间接地“看到自己”，并且模型能够在多层上下文中简单地预测目标词。为了能够双向地训练语言模型，BERT的做法是简单地随机mask掉一定比例的输入token（这些token被替换成 [MASK] 这个特殊token），然后预测这些被遮盖掉的token，这种方法就是Masked LM(MLM)，相当于完形填空任务（cloze task）。被mask掉的词将会被输入到一个softmax分类器中，分类器输出的维度对应词典的大小。在预训练时通常为每个序列mask掉15%的token。与降噪自编码器（denoising auto-encoders）相比，我们只预测被mask掉的token，并不重建整个输入。这种方法允许我们预训练一个双向的语言模型，但是有一个缺点就是造成了预训练和微调之间的mismatch，这是因为 [MASK] 这个token不会在微调时出现。为了缓解这一点，我们采取以下做法：在生成训练数据时我们随机选择15%的token进行替换，被选中的token有80%的几率被替换成 [MASK] ，10%的几率被替换成另一个随机的token，10%的几率该token不被改变。然后将使用交叉熵损失来预测原来的token。一些重要的NLP任务如Question Answering (QA)或者Natural Language Inference (NLI)需要理解句子之间的关系，而这种关系通常不会被语言模型直接捕捉到。为了使得模型能够理解句子之间的关系，我们训练了一个二值的Next Sentence Prediction任务，其训练数据可以从任何单语语料库中生成。具体的做法是：当选择句子A和句子B作为训练数据时，句子B有50%的几率的确是句子A的下一句（标签是 IsNext ），50%的几率是从语料库中随机选择的句子（标签是 NotNext ）。 [CLS] 对应的最后一个隐层输出向量被用来训练NSP任务，这个embedding就相当于sentence embedding。虽然这个预训练任务很简单，但是事实上在微调时其在QA和NLI任务上表现出了很好的效果。在前人的工作中，只有sentence embedding被迁移到下游任务中，而BERT会迁移所有的参数来初始化下游任务模型。 Transformer的self-attention机制允许BERT建模多种下游任务。对于包含句子对的任务，通常的做法是先独立地对句子对中的句子进行编码，然后再应用双向交叉注意（bidirectional cross attention）。而BERT使用self-attention机制统一了这两个过程，这是因为对拼接起来的句子对进行self-attention有效地包含了两个句子之间的双向交叉注意（bidirectional cross attention）。对于每个任务来说，我们只需要将任务特定的输入输出插入到BERT中然后端到端地微调即可。举例子来说，BERT的预训练输入句子A和句子B在微调时可以类比为： ①paraphrasing任务中的句子对； ②entailment任务中的hypothesis-premise对； ③question answering任务中的question-passage对； ④text classification或者sequence tagging任务中的text-∅对（也就是只输入一个text，不必一定需要两个句子）。对于BERT的输出，对于一些token-level的任务，BERT的token表示将被输入到一个输出层，比如sequence tagging或者question answering任务；对于entailment或者sentiment analysis这样的任务，可以将 [CLS] 对应的表示输入到一个输出层。我们使用 [CLS] 这个token的最后一层的隐层向量作为聚合的表示，可以认为是sentence embedding。在微调时只引入一个新的权重，这里的代表标签的数量，然后计算标准分类损失。下图展示了BERT在GLUE上的效果：在这个数据集上，我们将question和passage拼接起来作为一个输入序列（中间是 [SEP] ）。在微调时引入一个start向量和一个end向量，计算和的点积然后通过函数作为word 是答案的span起始位置的概率：。答案的终止位置也做上述类似处理。从到的候选区间的得分记作，我们挑选的最大得分区间作为预测的结果。下图展示了BERT在SQuAD v1.1上的效果： SQuAD v2.0有的question在提供的passage中没有答案存在。在微调时我们设置没有答案的问题的span的起始和结束位置都是 [CLS] 这个token，也就是start和end的可能性空间包含进了 [CLS] 的位置。在预测时，我们比较没有答案的span得分和最优的有答案得分。当时，我们预测这是一个有答案的问题，这里的用来在dev set上选择最优的。下图展示了BERT在SQuAD v2.0上的效果：微调时我们为BERT构建4个输入序列，每一个是所给的句子（句子A）和一个可能的延续（句子B）。然后引入一个向量，该向量和每一个输入对应的 [CLS] 的embedding的点积再通过一个层来得到每个选择的得分。下图展示了BERT在SWAG上的效果：

2019 年可以说是「预训练模型」流行起来的一年。自 BERT 引发潮流以来，相关方法的研究不仅获得了 EMNLP 大会最佳论文等奖项，更是在 NLP、甚至图像领域里引领了风潮。

去年也有很多游戏 AI 取得了超越人类的水平。人工智能不仅已经玩转德州扑克、星际争霸和 Dota2 这样复杂的游戏，还获得了 Nature、Science 等顶级期刊的肯定。

机器之心整理了去年全年在人工智能、量子计算等领域里最为热门的七项研究。让我们以时间的顺序来看：

第一个重磅研究出现在 2 月，继发布刷新 11 项 NLP 任务记录的 3 亿参数量语言模型 BERT 之后，谷歌 OpenAI 于 2019 年 2 月再次推出了一种更为强大的模型，而这次的模型参数量达到了 15 亿。这是一种大型无监督语言模型，能够生产连贯的文本段落，在许多语言建模基准上取得了 SOTA 表现。此外，在没有任务特定训练的情况下，该模型能够做到初步的阅读理解、机器翻译、问答和自动摘要。

该模型名为 GPT-2，它是基于 Transformer 的大型语言模型，包含 15 亿参数、在一个 800 万网页数据集上训练而成。训练 GPT-2 有一个简单的目标：给定一个文本中前面的所有单词，预测下一个单词。GPT-2 是对 GPT 模型的直接扩展，在超出 10 倍的数据量上进行训练，参数量也多出了 10 倍。

GPT-2 展示了一系列普适而强大的能力，包括生成当前最佳质量的条件合成文本，其中我们可以将输入馈送到模型并生成非常长的连贯文本。此外，GPT-2 优于在特定领域（如维基百科、新闻或书籍）上训练的其它语言模型，而且还不需要使用这些特定领域的训练数据。在知识问答、阅读理解、自动摘要和翻译等任务上，GPT-2 可以从原始文本开始学习，无需特定任务的训练数据。虽然目前这些下游任务还远不能达到当前最优水平，但 GPT-2 表明如果有足够的（未标注）数据和计算力，各种下游任务都可以从无监督技术中获益。

最后，基于大型通用语言模型可能会产生巨大的社会影响，也考虑到模型可能会被用于恶意目的，在发布 GPT-2 时，OpenAI 采取了以下策略：仅发布 GPT-2 的较小版本和示例代码，不发布数据集、训练代码和 GPT-2 模型权重。

机器学习顶会的最佳论文，总会引起人们的广泛讨论。在今年 6 月于美国加州举办的 ICML 2019（国际机器学习大会）上，由苏黎世联邦理工学院（ETH）、德国马普所、谷歌大脑共同完成的《Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations》获得了其中一篇最佳论文。研究者在论文中提出了一个与此前学界普遍预测相反的观点：对于任意数据，拥有相互独立表征（解耦表征）的无监督学习是不可能的。

论文链接：

在这篇论文中，研究者冷静地审视了该领域的最新进展，并对一些常见的假设提出了质疑。

首先，研究者表示从理论上来看，如果不对模型和数据进行归纳偏置，无监督学习解耦表征基本是不可能的；然后他们在七个不同数据集进行了可复现的大规模实验，并训练了 12000 多个模型，包括一些主流方法和评估指标；最后，实验结果表明，虽然不同的方法强制执行了相应损失「鼓励」的属性，但如果没有监督，似乎无法识别完全解耦的模型。此外，增加的解耦似乎不会导致下游任务学习的样本复杂度的下降。

研究者认为，基于这些理论，机器学习从业者对于超参数的选择是没有经验法则可循的，而在已有大量已训练模型的情况下，无监督的模型选择仍然是一个很大的挑战。

去年 6 月，来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的研究者发表了一篇名为《Weight Agnostic Neural Networks》的论文，进而引爆了机器学习圈。在该论文中，他们提出了一种神经网络架构搜索方法，这些网络可以在不进行显式权重训练的情况下执行各种任务。

论文链接：

通常情况下，权重被认为会被训练成 MNIST 中边角、圆弧这类直观特征，而如果论文中的算法可以处理 MNIST，那么它们就不是特征，而是函数序列/组合。对于 AI 可解释性来说，这可能是一个打击。很容易理解，神经网络架构并非「生而平等」，对于特定任务一些网络架构的性能显著优于其他模型。但是相比架构而言，神经网络权重参数的重要性到底有多少？

来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的一项新研究提出了一种神经网络架构搜索方法，这些网络可以在不进行显式权重训练的情况下执行各种任务。

为了评估这些网络，研究者使用从统一随机分布中采样的单个共享权重参数来连接网络层，并评估期望性能。结果显示，该方法可以找到少量神经网络架构，这些架构可以在没有权重训练的情况下执行多个强化学习任务，或 MNIST 等监督学习任务。

BERT 带来的影响还未平复，CMU 与谷歌大脑 6 月份提出的 XLNet 在 20 个任务上超过了 BERT 的表现，并在 18 个任务上取得了当前最佳效果。

来自卡耐基梅隆大学与谷歌大脑的研究者提出新型预训练语言模型 XLNet，在 SQuAD、GLUE、RACE 等 20 个任务上全面超越 BERT。

作者表示， BERT 这样基于去噪自编码器的预训练模型可以很好地建模双向语境信息，性能优于基于自回归语言模型的预训练方法。然而，由于需要 mask 一部分输入，BERT 忽略了被 mask 位置之间的依赖关系，因此出现预训练和微调效果的差异（pretrain-finetune discrepancy）。

基于这些优缺点，该研究提出了一种泛化的自回归预训练模型 XLNet。XLNet 可以：1）通过最大化所有可能的因式分解顺序的对数似然，学习双向语境信息；2）用自回归本身的特点克服 BERT 的缺点。此外，XLNet 还融合了当前最优自回归模型 Transformer-XL 的思路。

yolov3论文是发表在哪的

调整了网络结构；利用多尺度特征进行对象检测；对象分类用Logistic取代了softmax

对于多尺度检测来说，采用多个尺度进行预测，具体形式是在网络预测的最后某些层进行上采样拼接的操作来达到；对于分辨率对预测的影响如下解释：

分辨率信息直接反映的就是构成object的像素的数量。一个object，像素数量越多，它对object的细节表现就越丰富越具体，也就是说分辨率信息越丰富。这也就是为什么大尺度feature map提供的是分辨率信息了。语义信息在目标检测中指的是让object区分于背景的信息，即语义信息是让你知道这个是object，其余是背景。在不同类别中语义信息并不需要很多细节信息，分辨率信息大，反而会降低语义信息，因此小尺度feature map在提供必要的分辨率信息下语义信息会提供的更好。(而对于小目标，小尺度feature map无法提供必要的分辨率信息，所以还需结合大尺度的feature map)

YOLO3更进一步采用了3个不同尺度的特征图来进行对象检测。能够检测的到更加细粒度的特征。对于这三种检测的结果并不是同样的东西，这里的粗略理解是不同给的尺度检测不同大小的物体。

YOLO2已经开始采用K-means聚类得到先验框的尺寸，YOLO3延续了这种方法，为每种下采样尺度设定3种先验框，总共聚类出9种尺寸的先验框。

在COCO数据集这9个先验框是：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。

logistic回归用于对anchor包围的部分进行一个目标性评分(objectness score)，（用于NMS），即这块位置是目标的可能性有多大。

yolo_v3只会对1个prior进行操作，也就是那个最佳prior。而logistic回归就是用来从9个anchor priors中找到objectness score(目标存在可能性得分)最高的那一个。

yolo v3是2018年出来的，比SSD和retinanet都要晚，在map0.5这个指标上速度比SSD和retinanet快很多。在工业应用上面map0.5已经满足使用，并且yolo v3简介，文档丰富，还有tiny版本等一些列变种。最重要的是速度非常快，比SSD和retinanet都要快。

YOLOv3 的提出不是为了解决什么问题，整篇论文其实是技术报告。YOLOv3 在 YOLOv2 基础上做了一些小改进，文章篇幅不长，核心思想和 YOLOv2、YOLO9000差不多。

模型改进：

边界框预测：定位任务采用 anchor box 预测边界框的方法，YOLOv3 使用逻辑回归为每个边界框都预测了一个分数 objectness score，打分依据是预测框与物体的重叠度。如果某个框的重叠度比其他框都高，它的分数就是 1，忽略那些不是最好的框且重叠度大于某一阈值（0.5）的框。

YOLO是“You Only Look Once”的简称，它虽然不是最精确的算法，但在精确度和速度之间选择的折中，效果也是相当不错。YOLOv3借鉴了YOLOv1和YOLOv2，虽然没有太多的创新点，但在保持YOLO家族速度的优势的同时，提升了检测精度，尤其对于小物体的检测能力。YOLOv3算法使用一个单独神经网络作用在图像上，将图像划分多个区域并且预测边界框和每个区域的概率。 YOLOv3仅使用卷积层，使其成为一个全卷积网络（FCN）。文章中，作者提出一个新的特征提取网络，Darknet-53。正如其名，它包含53个卷积层，每个后面跟随着batch normalization层和leaky ReLU层。没有池化层，使用步幅为2的卷积层替代池化层进行特征图的降采样过程，这样可以有效阻止由于池化层导致的低层级特征的损失。Darknet-53网络如下图左边所示。输入是。输出是带有识别类的边界框列表，每个边界框由六个参数表示。如果表示80个类别，那么每个边界框由85个数字表示。在YOLO中，预测过程使用一个卷积，所以输入是一个特征图。由于使用卷积，因此预测图正好是特征图大小（卷积只是用于改变通道数）。在YOLOv3中，此预测图是每个cell预测固定数量的边界框。如上图所示，预测图的深度为75，假设预测图深度为，表示每个cell可以预测的边界框数量。这些个边界框可以指定检测到一个物体。每个边界框有个特征，分别描述中心点坐标和宽高（四个）和物体分数（一个）以及个类置信度（上图中）。YOLOv3每个cell预测三个边界框。如果对象的中心（GT框中心）落在该cell感受野范围内，我们希望预测图的每个单元格都能通过其中一个边界框预测对象。其中只有一个边界框负责检测物体，首先我们需要确定此边界框属于哪个cell。为了实现上面的想法，我们将原始图像分割为最后预测图维度大小的网格。如下图所示，输入图像维度为，步幅为32（最后的预测图降采样32倍），最后预测图维度为，所以我们将原始图像划分为的网格。直接预测框的宽高会导致训练时不稳定的梯度问题，因此，现在的很多目标检测方法使用log空间转换或者简单的偏移（offset）到称为锚框的预定义默认边界框。然后将这些变换应用到锚框以获得预测，YOLOv3具有三个锚框，可以预测每个单元格三个边界框。锚框是边界框的先验，是使用k均值聚类在COCO数据集上计算的。我们将预测框的宽度和高度，以表示距聚类质心的偏移量。以下公式描述了如何转换网络输出以获得边界框预测：这里分别是我们预测的中心坐标、宽度和高度。是网络的输出。是网格从顶左部的坐标。是锚框的维度（见下图）。通过sigmoid函数进行中心坐标预测，强制将值限制在0和1之间。YOLO不是预测边界框中心的绝对坐标，它预测的是偏移量：相对于预测对象的网格单元的左上角；通过特征图cell归一化维度。例如，考虑上面狗的图像。如果预测中心坐标是，意味着中心在（因为红色框左上角坐标是）。但是如果预测的坐标大于1，例如，意味着中心在，现在中心在红色框右边，但是我们只能使用红色框对对象预测负责，所以我们添加一个sidmoid函数强制限制在0和1之间。通过对输出应用对数空间转换，然后与锚框相乘，可以预测边界框的尺寸（如上面的计算公式）。物体分数表示一个边界框包含一个物体的概率，对于红色框和其周围的框几乎都为1，但边角的框可能几乎都为0。物体分数也通过一个sigmoid函数，表示概率值。类置信度表示检测到的物体属于一个具体类的概率值，以前的YOLO版本使用softmax将类分数转化为类概率。在YOLOv3中作者决定使用sigmoid函数取代，原因是softmax假设类之间都是互斥的，例如属于“Person”就不能表示属于“Woman”，然而很多情况是这个物体既是“Person”也是“Woman”。为了识别更多的物体，尤其小物体，YOLOv3使用三个不同尺度进行预测（不仅仅只使用）。三个不同尺度步幅分别是32、16和8。这意味着，输入图像，检测尺度分别为、和（如下图或者更详细如图2所示）。 YOLOv3为每种下采样尺度设定3个先验框，总共聚类9个不同尺寸先验框。在COCO数据集上9个先验框分别是：。下表是9个先验框分配情况：我们的网络生成10647个锚框，而图像中只有一个狗，怎么将10647个框减少为1个呢？首先，我们通过物体分数过滤一些锚框，例如低于阈值（假设0.5）的锚框直接舍去；然后，使用NMS（非极大值抑制）解决多个锚框检测一个物体的问题（例如红色框的3个锚框检测一个框或者连续的cell检测相同的物体，产生冗余），NMS用于去除多个检测框。具体使用以下步骤：抛弃分数低的框（意味着框对于检测一个类信心不大）；当多个框重合度高且都检测同一个物体时只选择一个框（NMS）。为了更方便理解，我们选用上面的汽车图像。首先，我们使用阈值进行过滤一部分锚框。模型有个数，每个盒子由85个数字描述。将分割为下面的形状：box_confidence：表示个cell，每个cell5个框，每个框有物体的置信度概率；boxes：表示每个cell5个框，每个框的表示；box_class_probs：表示每个cell5个框，每个框80个类检测概率。即使通过类分数阈值过滤一部分锚框，还剩下很多重合的框。第二个过程叫NMS，里面有个IoU，如下图所示。下图给出更加详细的输入输出情况：文章原文：论文原文： YOLOv3深入理解： keras实现YOLOv3博客： What new in YOLOv3?：

论文是在哪里发表的

论文发表的方法是：选定想要发表的论文期刊，找到该期刊的投稿方式并投稿，部分期刊要求书面形式投稿，大部分是采用电子稿件形式。在审稿通过以后即可将论文发表在期刊上。

普通刊物（省级、国家级）审核时间为一周，高质量的杂志，审核时间为14-20天。核心期刊审核时间一般为4个月，须经过初审、复审、终审三道程序。

国家没有对期刊进行级别划分。但各单位一般根据期刊的主管单位的级别来对期刊划为省级期刊和国家级期刊。省级期刊主管单位是省级单位。国家级期刊主管单位是国家部门或直属部门。

扩展资料：

发表论文的作用：

1、评职称；研究生毕业需要；教师、医护人员、科研院所的人员、企业员工等晋升高一级的职称时，发表期刊论文是作为一项必须的参考指标。

2、申报基金、课题：教育、科技、卫生系统每年申报的国家自然科学基金项目、其它各种基金项目、各种研究课题时，发表论文是作为基金或课题完成的一种研究成果的结论性展示。

3、世界性基础领域的研究，比如在医学、数学、物理、化学、生命科学等领域开展的基础性研究，公开发表论文是对最新科技科学研究成果、研究方法的一种展示和报道。以推动整个社会的科技进步等。

参考资料来源：百度百科—论文

发表论文通常只有两种渠道，要么自己投，要么找论文发表机构代投，不管走哪种渠道，最后都是要发表到期刊上的。

论文是发表在哪里的

毕业论文发表在什么期刊?现在大家写作毕业论文不仅需要上交给学校，还需要向期刊上进行投稿，而对于学生们来说，选择能接收这类论文的刊物也不是一件容易的事情，作者自己选择期刊也会耽误时间，因此建议大家多咨询月期刊我的意见，他们的经验是较为丰富的，可以帮助大家安排到合适的期刊上，这样也不会影响您论文的发表，下面小就对这类期刊进行介绍。能发表毕业论文的期刊首先需要是在新闻出版总署查询到的，并且具有国内和国际双刊号，如果是本科生发表毕业论文可以选择国内的省级、国家级、核心级刊物，但如果是研究生、博士生发表毕业论文，那么需要考虑sci、ssci、ei这样的国际期刊，这也是很多高校的明文规定，并且国际核心期刊权重是要高于国内刊物的。除了期刊级别外，大家还要注意自己毕业论文的写作方向，因为本科生写的文章一般不会是教育的，而是他学的专业方向，比如他写的经管的文章，写的大学生市场调查的文章，或者农业园艺的学生写的他的方向的文章，可投稿刊物都会是对口专业的期刊，没有全部都适合的刊物。《城市发展研究》创刊于1994年，杂志作为中国城市科学研究会的会刊，1995年正式出版，始为双月刊，至2009年改为月刊，现已出版百余期。本刊宗旨是服务于我国健康城镇化和城市科学发展的需要，推动学术界对城市发展规律、对城市社会、经济、文化、环境和城市规划建设管理中的重大理论问题和实际问题进行综合性研究，繁荣和发展城市科学理论。《科学管理研究》广泛开展科技体制改革、企业及农村技术进步、科技与经济结合以及决策预测理论、科学学、人才学、未来学等方面的综合性研究;同时努力探讨软科学研究方法论、软科学学科建设等方面的问题。主要读者对象：科技工作者、科技管理者、经济工作者、大专院校师生以及企业家和有志钻研软科学研究的广大干部。

在期刊上发表，需要根据你的专业和要求来选择期刊，比如建筑、经济、医学等等。对论文上网有没有要求，比如知网、万方、维普等。建议在参加评审前1-2年准备好论文。具体以当地评审要求为准。发表论文前一定要查看自己省份对评审论文的要求，各省对论文发表的要求有细微的差别，一般来说文章字数在2000~5000 字左右。每个单位对于评职称都会有相关的文件要求，比如：论文必须发表在国内正规刊物上，有CN刊号和ISSN刊号，或者明确强调需要知网、万方等数据库收录的刊物，这些都是要求。提前搞懂这些要求，才能更好地按照要求去准备论文。要了解清楚时间，这里说的时间，包含：版面时间、见刊时间、上网时间三个。(1)版面时间：每家杂志社都会提前收稿，或者收稿很慢，如果组稿编辑告诉你22年12月版面，1月出刊，则意思就是你的论文会刊登在22年的12月版面上，为什么说这个问题，因为有的用人单位要求论文必须发表在当年内，所以即使它是1月出刊，但是版面在22年12月，也是符合单位评职称要求的；(2)见刊时间：见刊时间就是作者看到论文发表被刊登在杂志里的时间，因为单位在评职称事，都会要求拿上论文发表所在刊物杂志，所以见刊时间很重要；(3)上网时间：上网就是我们说的论文被数据库（知网、万方、维普、龙源等）收录了，上网时间一般在见刊时间1-3个月内，了解这个时间，是因为有的单位对于论文发表的认可，单单见到刊物是不算的，必须要被数据库收录了才能评职称。

职称论文知识库

论文是发表在哪的