和声(Harmony)两个以上不同的音按一定的法则同时发声而构成的音响组合。它包含:①和弦,是和声的基本素材,由3个或3个以上不同的音,根据三度叠置或其他方法同时结合构成,这是和声的纵向结构。②和声进行,指各和弦的先后连接,这是和声的横向运动。补充一句。和声有明显的浓,淡,厚,薄的色彩作用;还有构成分句,分乐段和终止乐曲的作用。从17世纪起,由于主调音乐的逐步发展,和声的作用愈趋重要。它在音乐中所起的作用大致有3个方面:①声部的组合作用。在统一的和声基础上,各声部相互组合成为协调的整体。②乐曲的结构作用。通过和声进行、收束式、调性布局等在构成曲式方面起重要作用。③内容的表现作用。通过和声的色彩、织体以及配合其他因素,塑造音乐形象、表现音乐内容。和声的处理是音乐创作的重要写作技巧,也是对位、配器、曲式等其他作曲技法的基础。有时,曲调也由和声衍生。在调性音乐中,和声同时具有功能性与色彩性的意义。和声的功能,是指各和弦在调性内所具有的稳定或不稳定的作用、它们的运动与倾向特性、彼此之间的逻辑联系等。和声的功能与调性密切相关,离开了调性或取消了调性,和声也就失去了它的功能意义。和声的色彩,是指各种和弦结构、和声位置、织体写法与和声进行等所具有的音响效果。和声的色彩是和声表现作用的主要因素,无论在调性音乐或非调性音乐中,它都具有重要意义。和声的历史发展 西洋音乐中和声的形成与发展,至今已有千余年历史,现分6个阶段概述如下:10~16世纪,欧洲复调音乐从早期的奥加农发展至复调写作的完善阶段 当复调音乐的各声部相互间以协和音程为主作对位结合时,即形成和声音程、和弦与和声进行。当时以各类七声中古调式为基础,故后人称15、16世纪复调音乐中的和声为中古调式和声或教会调式和声。其特点为:①建立在6种不同结音(即主音)的调式基础上(第7种洛克里亚调式极少应用)。各调式音阶的音程关系不同,每一种调式都有其特征音程,相互区别。②以协和音程为基础,和弦结构只有大、小三和弦原位、第一转位与减三和弦第一转位。其他不协和音程均须按规定的方法解决。③各级三和弦都可相互连接。在和弦的连接中,根音之间的各种音程关系(除增四度外)均常用。在音乐进行过程中,并不要求以主和弦为中心,但在乐曲结束处应以主和弦收束。约从14世纪开始应用变音,亦称“伪音”,规定六度反向级进到八度时须为大六度,三度反向级进到同度时须为小三度,因此需应用变音,形成类似导音进入主音的声部进行。另外,为了避免减五度与增四度,亦需用变音。这为各类调式逐渐演变集中为大、小调体系创造了条件。由于在各个乐句结束处不同的停顿音上构成类似Ⅳ—I、Ⅴ—I或Ⅳ—Ⅴ—I的和声进行,形成了以后转调的萌芽。17世纪,早期巴罗克时代 随着单旋律乐曲的形成和歌剧的产生,采取为单声部歌唱加和弦式伴奏的方法。开始应用数字低音以指示伴奏部分的和声,由键盘乐器演奏者即兴弹奏,以纵的音程结合为基础,使和声的作用加强,并形成以平均节奏持续流动的低音线条。器乐中和弦式织体的发展,对逐步形成主调音乐有重要意义。由于戏剧性内容表现的需要,开始重视发挥和声——特别是不协和弦的表现作用(如C.蒙泰韦尔迪、J.佩里等在歌剧中用七和弦来表现哀叹和不幸等内容)。属七和弦的应用,成为确立大小调调性的重要条件。至17世纪后期,虽然还存在着中古调式的影响,但大、小调体系已得到确立。大、小调成为旋律与和声的调式思维的基础;它们之间的调式色彩对比成为音乐中的重要表现因素。18世纪上半叶,后期巴罗克时代 在这一时期中,器乐写作得到更大的发展,建立在大、小调和声体系基础上的自由复调音乐是主要的织体形式。继续应用数字低音作为键盘乐器和声部分的写谱方法。和声作为构成曲式的要素,对于这一时期的乐曲结构,包括赋格曲、古二部曲式、早期奏鸣曲式等,均有重要作用,形成了调性布局的规律:大调乐曲先转至属大调,以后再转向其他近关系调;小调乐曲先转至属小调或平行大调,以后再转向其他近关系调。在转调布局中注意到调性的功能与色彩的对比。小调乐曲结束的主和弦常用大三和弦,称辟卡迪三度,这种方法自16世纪后半叶得到普遍应用起,一直延续到18世纪中叶。同主音大小调的变化是这一时期使用的一种音乐对比方法。平均律键盘乐器的应用,使乐曲所用的调和转调的范围得到扩大,J.S.巴赫的《平均律钢琴曲集》是这类乐曲的典范作品,对后世音乐艺术的发展有极其重要的作用。这一时期的和声材料除各级自然和弦外,变音和弦如副属和弦、减七和弦与那不勒斯六和弦等应用较多。器乐中各种和声织体,如和弦式、分解音型式等的应用,使主调音乐风格获得进一步发展,逐步向18世纪后半叶的主调音乐体制过渡。在这一时期内,不少作家重视以不同的和声材料来表现不同的音乐内容,发挥和声的表现作用。如在巴赫作品中,以单纯的和声表现欢快、赞颂、希望、和平等内容。以半音化和声与不协和弦表现幻想性、戏剧性与苦难、忧伤、哀悼等内容。巴赫在《马太受难曲》中用低音的半音上行、变音和弦与不协和弦等手法,描绘了“大地震动,岩石崩裂,死者从墓中升起……”的情景。这一时期的和声虽以大、小调体系为基础,但中古调式在一部分以众赞歌为基础的声乐、器乐曲中仍有应用。18世纪后半叶,古典乐派时期 主调音乐成为主要的体制。当时所追求的思想内容与结构形式上的单纯明晰的特点,也表现在和声手法的简朴方面。大、小调体系成为和声的基础,中古调式消失其影响。和声的调性意义更为明确集中,强调主、下属与属七 3个主要和弦。数字低音在创作中已不再应用,低音也摆脱了流动性线条的束缚。由于结构的方整性,并且没有复调音乐中那种错综复杂的声部与节奏,使和声的节奏规律化与节拍化,以对称、平衡的和声进行为主体。离调、移调模进、减七和弦、增六和弦、同主音大、小调对置等均普遍应用。开始应用和声大调式,应用降Ⅵ级大三和弦的阻碍收束,随着半音化和弦外音的应用,装饰性的半音进行也得到发展,成为一种富于色彩的手法。在主调音乐的曲式中,特别在大型曲式,如奏鸣曲式中,和声的结构作用得到充分发挥,成为主调音乐结构的要素之一。19世纪,浪漫主义时期 19世纪初,和声手法基本上与上世纪后期相同。此后,由于题材和内容范围的扩大,音乐作品中情感的表达、心理的刻划、风景的描绘和情节的表现等需要,促使作曲家不断发展新的和声语汇,丰富和声的表现力。这主要表现在两方面:一方面是发展变音体系和声以及其他复杂的和声手法,如大量应用半音化的声部进行、远关系离调与转调、游移与模糊的调性、连续的属功能组和弦、各类远关系的变音和弦、高度叠置和弦(九和弦、十一和弦、十三和弦等)、主和弦的隐蔽、收束的避免、同主音大、小调的混合以及强拍上的半音和弦外音等,从而将大、小调体系和声推向极限,趋于解体的边缘。和声的功能性逐渐削弱和模糊,色彩性得到突出和强调。R.瓦格纳后期乐剧中的和声可为这方面的代表。另一方面由于民族乐派的兴起与古代宗教题材的采用,恢复并扩充了自然音体系和声。例如由于民间音乐的影响,扩大了作品中调式的范围,除自然大、小调式外,还有其他中古调式和特殊调式,如F.F.肖邦作品中的弗里吉亚调式与吕底亚调式,F.李斯特作品中的吉卜赛调式,俄罗斯作曲家作品中的各类自然调式等。在和声的处理方面,下属组和弦得到强调,有时某个段落仅由下属组和弦与主和弦构成。大调副三和弦也得到重视,它们增加柔和的色彩,并使和声具有中古调式的风格特点。变格进行、阻碍进行以及三度根音关系的和声进行等也较普遍,这在李斯特、瓦格纳、俄罗斯作曲家与E.格里格等人的作品中常可遇到。在和弦构成方面有加六度音的主和弦与属和弦、自然音范围的高度叠置和弦等。在和声的收束式方面,也出现了新的处理方式,如在结束处使用转位的主和弦;以Ⅲ级代替Ⅴ级的正格收束;Ⅵ级或Ⅱ级代替Ⅳ级的变格收束等。有时最后结束不在主和弦上。这一时期中,还有一些富于创造性而成为近代和声先驱的特殊手法,如:五声音阶和声(如在А.П.鲍罗丁的作品中);五度叠置和弦(如在李斯特的作品中);复合和声(如在瓦格纳的作品中);全音阶和声 (如在Н.А.里姆斯基-科萨科夫的作品中)等。20世纪 在19世纪后期大、小调体系和声发展至极限的基础上,不少作曲家探索新的创作手法,或回复至古老的音乐风格,其结果都打破了过去200年来传统和声的规范。20世纪的和声手法,总的可概括为:和声思维的复杂化,和弦结构的多样化,和声进行的自由化与调性观念的扩大化。首先是将传统和声材料在使用方法上加以突破,创造新的和声效果,例如应用三度叠置和弦的平行进行;四六和弦与不协和弦的独立应用;无功能联系的远关系和弦的紧接;连续大二度、小三度或大三度的和声进行与复合和弦等。在打破大、小调式的长期影响方面,广泛采用了各类中古调式、五声调式、某些民族的特殊调式、泛音音阶(同时包含增四度、小七度的大调式)、全音音阶、十二音音阶以及各类其他特殊的调式与音阶。这些新的调式音阶为和声的处理提供了不同于大、小调式的基础。在和弦结构方面力求打破传统的三度叠置原则,并追求以往被认为是不协和的、粗糙的和声效果。例如建立在半音阶基础上的高层三度叠置和弦、采用四度叠置的方法、二度密集的音群、各种附加音与任何可能的结合,使和声纵的音响尖锐化、紧张化与复杂化。另外,还有完全以自然音体系的各音作各种自由组合的和声处理方法,称“泛自然音体系”。19世纪后期的音乐作品中,大小调式的区别已趋于消失,更由于半音化和声的发展,调性范围的扩大与不断迅速地转换,带来了调性与和声功能意义的削弱与模糊。20世纪,在这基础上更进一步突破传统的观念,产生下列新的调性处理方式:①泛调性,这种处理仍然保持调性的作用,但打破了传统调性的界限,不以三和弦、自然音阶为基础,也无功能性的和声进行,而通过一些新的方法来表现或暗示调性中心(主音或主和弦)的意义。有时,由于调中心不断变换,缺乏较固定、明确的调性感觉。②多调性,两个以上不同的调性同时结合,即构成双调性或多调性,这是20世纪初开始流行的一种新的调性处理方法。每一个调性层次大都为自然音体系的传统调性,但当不同的调性叠置结合时,即产生了不协和的、矛盾的、有时甚至是很尖锐的和声效果。③无调性,在半音阶的基础上,强调每个音都有同等的意义,避免和否定中心音的控制。这种处理排除了调性,调号也失去其意义而不再应用。取消了和弦结合的原则、根音的作用与和弦之间的内在联系。乐曲的结构不再依靠和声收束式来加以区分。中国音乐作品中的和声表现手法 在中国专业音乐创作中,和声的应用约从20世纪初开始,最初采用欧洲大、小调和声方法。由于旋律多为五声调式,因此,和声如何适应旋律的风格,就成为中国作曲家在实践中不断探索的课题。初时的和声大都是在大、小调和声的基础上加强副三和弦的作用以及应用附加六度音的大三和弦等方法,并注意声部(特别是两外声部)的五声化进行。20年代赵元任在其创作歌曲的伴奏中,就注意试验中国化的和声.30年代中,由于民族传统音乐与民间音乐的影响,音乐的民族风格问题得到进一步的重视,对和声也有了更多的探索和试验,如借鉴欧洲民族乐派以至印象派(如德彪西)的某些和声方法,自然调式和声的应用增多,在三和弦的基础上采用附加音或代替音的方法。在有些作品中,打破了大、小调的和声规范,采用五声化和声结构(如老志诚的《牧童之乐》的引子部分等)或复调化处理(如贺绿汀的《牧童短笛》等)。40年代中,音乐创作较前一时期有进一步的发展,以民歌或以民歌风的旋律为素材的作品逐渐增多。和声上重视应用调式和声方法,并尝试一些适合于五声音调的和弦结构,如四、五度和弦、替代音和弦等。开始吸取和应用某些近现代的和声方法,印象派作家的和声引起较多作曲者的注意和借鉴。P.欣德米特的作曲理论也开始介绍到中国,谭小麟在他的创作中将这种理论、技巧与民族风格相结合,创造了新的和声处理方法.当时也有应用无调性创作手法与中国民歌相结合的尝试,但并不普遍。中华人民共和国成立后,音乐创作获得很大发展,和声的民族风格问题引起更大的重视。但由于强调功能性和声理论,因此在和声处理方面,主要属于三度结构与功能性的调式和声方法,与此同时,在保持调性、调式的基础上,也有许多探索与尝试,如五声化和声结构、复杂的和声结合,复合和声、四度和声、调式交替变音和声与平行进行等等。近年来,不少作曲者又继续探索近现代和声手法与民族风格相结合的处理方法,有不少可喜的成果。总之,从中国音乐创作的实践观察,三度结构的和声、五声纵合化和声与近现代复杂的和声都可以与五声性的民族音调相结合,在发展音乐创作的民族风格方面发挥其作用。
声乐教学方法初探论文
摘要:本文列举了几种声乐教学中有代表性的特色教学方法,分别介绍了其作用、适用情况、注意事项等,教师要针对学生的不同情况、不同的教学目的合理搭配使用,达到教学的最佳效果。
关键词:声乐教学方法
声乐教学是有一定特殊性的学科教学,发声的器官看不到、摸不着,学生的生理和音乐条件各不相同,教学中的许多关键性重要问题的表述只能借助比喻、示范、甚至是主观感很强的感觉进行教学,因此声乐教学过程中产生了一些特色的教学方法,分别如下。
1.音乐教学法
音乐教学法是指在声乐教学中以音乐为手段,进行声音调节、歌曲处理的教学方法。如用快速音阶或装饰音练习,有助于克服喉音和空洞的声音;用超过八度的音阶练习,有助于扩展音域;用级进的五度以内的音阶或半音练习,有助于训练声音的连贯性;用跳音的练习可以锻炼起音准确并使声音轻松、集中、明亮;用慢速的延长音练习,可以检验气息的平稳和持续;用大跳的音程练习,可以练习喉头的稳定;歌唱中顺着音高的升高或降低来带动歌唱的情绪等。
音乐教学法借助音乐本身的特点在声乐教学中被广泛应用,无论在歌唱发声还是歌曲处理中都能达到良好的效果,使学生在直接的音乐改变中,间接地调节歌唱声音。但音乐教学方法应该根据学生的特点进行选择,不能千篇一律。如用大跳的音程练习歌唱的稳定性时,必须针对程度较深、能较好地掌握歌唱发声技巧的学生,否则会适得其反。
2.示范模仿教学法
示范模仿教学法指教师示范,通过学生模仿直接达到要求的教学方法。示范教学法是一
种最直观的教学方法,贯穿于声乐教学的始终。如给喉咙上提的学生示范放下喉咙的叹气练习、给学生示范歌唱的姿势、示范各种不同母音的唱法等。示范模仿教学方法是古代意大利美声学派的主要教学方法,也是民间歌曲、戏曲传承发展中被最大程度地使用的教学方法,同时更适用于声乐教学的初期和给学生纠正错误的教学中。
示范模仿教学法运用时应该注意一、教师的示范要准确。学生的模仿是对教师的示范直接模仿,所以教师示范的准确性十分重要。二、教师要指导学生正确模仿。学生的模仿可能正确也可能错误,教师要对学生进行指导,才能达到模仿教学的要求。
3.语音教学法
语音教学法指教师根据学生的不同特点运用语音(包括元音和母音)的变化来调节学生
歌唱的一种教学方法。对不同语音的选择本身就是对发声器官的不费力调节,在此基础上强化训练容易被学生接受,同时声乐艺术本身就是声音和语言的结合体,通过不断变化的语音教学为歌唱打下良好的基础,因此语音教学法教学效果明显,在声乐教学中也被广泛使用。
使用语音教学法时,教师要针对不同学生,选择不同的母音,避免千篇一律。如对于初学的学生和喉位较高的学生多选择[o]、[u]等喉位较低、容易打开喉咙的母音进行训练;对于舌头过于僵硬的学生多使用辅音配合发声等。
4.比喻教学法
比喻教学法主要是指教师在声乐教学中讲授一些学生不容易理解的概念、声音要求
和发声器官的状态时,运用学生的生活经验或已有知识来比喻,使学生茅塞顿开、豁然开朗的教学方法。如歌唱的吸气象闻花香的感觉;气息运用持续、平稳象小提琴的运弓一样;把声音的效果比喻成绒布一样柔和;歌唱时口腔里象放着一个鸡蛋等。在抽象的声乐教学中,处处都要用到比喻的教学法,其使用有赖于教师知识的渊博,经验的丰富和实践的灵活。
5.感觉教学法
感觉教学法是指在声乐教学中教师用自己歌唱的感觉和学生歌唱的感觉来指导学生歌
唱的教学方法。感觉是把歌唱状态形象化,帮助学生体会复杂、抽象歌唱状态的有效方法,学生声乐学习的过程就是歌唱状态的感觉不断领悟和巩固的过程,不同的歌唱家都有自己不同的歌唱感觉和体会,感觉教学法在声乐教学中被广泛应用。
运用感觉教学法教学应该注意教师的感觉不应该强加给学生;学生不要过分依赖和追求某种感觉。教师的感觉只是教师自己的,教师用自己的感觉要求学生时只有学生也能体会到教师的感觉才能收到一定的效果;学生找到感觉时可能是整体的感觉,也可能是比较关注的局部感觉,所以无论教师的感觉还是学生的感觉都不能当成真理过分追求。
6.机理教学法
机理教学法是指在声乐教学中,从歌唱发声的生理上直接锻炼某部分肌肉,来解决歌唱发声问题的'教学方法。如用狗喘气的方法训练腹肌、拉舌头发声或者放松下巴等。机理教学法在声乐教学中运用较少,在有的声乐形式中甚至不用,如我国民间歌曲的传承发展中,美声歌唱教学的早期阶段等。
使用机理教学法有速成的效果,有积极的一面,但不建议长期使用。长期使用机理教学法单独练习会导致歌唱时心理与生理的有机协调,运用不恰当会破坏歌唱的整体。因此在使用机理教学法时要合理运用,扬长避短。
7.理论教学法
理论教学法是在声乐教学过程中教师理性地运用声乐理论指导学生学习,学生通过
学习声乐理论知识来提高自己歌唱水平的教学方法。如教师指导学生阅读声乐发声原理、歌曲风格、文化背景的理论文献等。理论教学法在声乐教学中主要起指导作用,但理论教学法一定要联系实践才能达到最佳效果。
声乐教学的目的是不同的,王耀华在《高师音乐教育学》中提到:“高师声乐教育的重点在于怎样让学生了解、掌握发声与发声训练的方法,及学习演唱作品的基本方法;对于音乐学院声乐系来说,则侧重于培养学生演唱技巧及对不同风格、题材的声乐作品的艺术表现;对戏剧学院和广播学院播音专业而言,前者以培养学生掌握科学的发声方法,并将这种方法融入到戏曲唱腔的演唱之中为主,后者则是一门借以辅助语言发声而使学生掌握并在播音中使用歌唱发声的方法。因此同是声乐学科,教学的目的、内容是不同的,指导原则也不同,采用的教学方法也肯定是有所差别的。”各种声乐教学方法不是孤立存在和使用的,教师在声乐教学过程中必须根据教学对象的差异、教学目的的不同灵活选择不同的教学方法,综合运用、取长补短,以最有效的方法达到声乐教学的最佳效果.
超验的艺术──谈莫札特的音乐轻快愉悦的风格我一直对家与宗教之间的关系很有兴趣。有些人认为宗教是桎梏艺术的最大元凶,有人认为没有宗教就没有办法呈现出艺术最超越的心灵,有人则宣称艺术可以取代宗教,并达到宗教的功能。于是我决定「宗教音乐」。我的想法是,不管宗教与心灵的关系究竟为何,宗教音乐绝对呈现的出最真实的心灵状态。在研究宗教音乐的过程中,我对莫札特尤其好奇,因为他在萨尔兹堡这个宗教重镇成长的岁月中,一直为其生计:教堂管风琴职位谱写为宗教仪式而有的宗教音乐,而萨尔兹堡主教对莫札特这个艺术家又非常的不尊重,把莫札特的才华弃若敝屣,不断限制他的创作,甚至规定莫札特的宗教音乐只能写小弥撒曲,把莫札特自由的心灵视若宗教中的杂质。这期间,莫札特为想离职,主教竟然以辞去莫札特父亲之职务使其生活陷入困境来要胁莫札特。莫札特为了想离开撒尔兹保受限的创作气氛,与不被器重的艺术生命,也曾在母亲陪同下,周游当年以神童之名走访过的诸如慕尼黑,奥斯堡,曼汉,巴黎,伦敦,海牙,巴黎,里昂,瑞士等大城,想另寻创作生涯的开始,结果非但没有成功,母亲反倒因旅途劳累而病故。莫札特并不想耗费时间教授音乐课以餬口,只好再返回撒尔兹堡,忍辱继续作管风琴师,最终还是以跟主教彻底决裂收场。对萨尔兹堡的宗教气氛,莫札特曾写信给朋友说:「作人还是不要太『虔诚』比较好!」所以莫札特的生命,其实一直周旋在创作渴望与维持家计的现实中、周旋在跋扈主教的宗教压力与自由的艺术生命之间挣扎不已。和谐中隐藏的突兀莫札特六岁时的画像,此时的他是人所周知的神童。莫札特的父亲 Leopold Mozart莫札特的母亲莫札特的音乐总体而言非常轻快愉悦,这简直跟他的生命史格格不入。研究音乐史的人都知道莫札特的音乐生命非常早熟,他才三四岁就已充分显出其音乐的才华,七岁就以神童之名周游欧洲演奏钢琴,这时的莫札特深被王公贵族们宠爱,其音乐中的欢快愉悦是很能被理解的。这种欢快性质,也深深著莫札特的宗教音乐。他最早的宗教音乐 Kyrie(KV33)创作时年仅十岁,Kyrie的内涵是「求主垂怜我的生命」,其实应当是深沈的信仰告白,但这绝非被人视为稀罕天才的小小莫札特所能理解的。但很奇怪的,莫札特到了成人,已不再因神童受人宝爱,开始在撒尔兹堡跟主教折冲郁郁不得志以后,其音乐竟然还是有著愉悦欢快的特点。正是因著这种音乐风格,音乐诠释家开始注意在莫札特音乐中潜藏的,突然出现突然消失的小调,不谐和音与半音阶,他们都发现这些音符在诉说著欢快之外的另一些东西,而莫札特每每在彷佛不经意间陈述出这些情绪后,便立即以欢快,以和谐再度压过。而这样的音乐风格出现最明显的,就是在母亲去世,莫札特又必须比以前更卑屈的返回撒尔兹堡作管风琴师以后。譬如莫札特的 E大调小提琴协奏曲(KV364),此曲作于 1779,此时母亲已过世,莫札特回到萨尔兹堡,跟主教仍旧不合,(一年后终于彻底决裂),此曲就在一向欢愉轻快的风格中,间杂有半音阶的快速回旋上升音符,给人很焦虑不安的、彷佛想离开逃跑的感觉,此外还数度出现小提琴与大提琴沈重的往返对应,好像是在不安的质问著什么。但是这种音符的出现,都是突兀的过渡,不知何来何去的在和谐声中突然出现突然消失。虽然这种焦虑感,严厉的大主教是不可能准许莫札特将其放入宗教音乐的。但若仔细聆听同期的宗教音乐C大调庄严弥撒(KV337),就在其 Kyrie中,便有著间杂半音阶的上升,与突然出现嘎然而止的不谐和合音,尤其是因著其合音突然收入休止符,给人「提出没有答案」的不确定感十分的明显。这种宗教音乐的表达,已经是十分露骨了。不管莫札特最终是如何的以欢快否定忧郁与焦虑,其音乐呈现出来的真实心灵,却还是可以被聆听音乐者感觉出来:莫札特渴望自由渴望离开,对当时的生命处境并不满意。莫札特于 1781年终于跟大主教决裂,据说,是大主教踢著他的屁股,当众很难堪的把他赶出去的。莫札特在信中告诉父亲,「主教说为他服务的人中,没有像我这样坏的,又说其他我都不想重复的难听的话,还说我没教养....。请你不要灰心,离开大主教我想我就开始会教好运了。」从此,莫札特开始他更艰困的,收入极不稳定的人生。灵魂深处的信仰告白莫札特离开撒尔兹堡后,于 1783年创作了他最著名的「C小调弥撒」(KV427),这曲弥撒因为没有教堂仪式肯用,终于没有完成,但光就其完成部份,便有人将之与巴哈「B小调弥撒」、贝多芬「庄严弥撒」并列世界最伟大的三大弥撒曲。这首弥撒曲的 Kyrie,先以乐器出现沈重的主题动机后,乐器与人声呈现二种不同的主题赋格,人声也分四部赋格。人声一开始就是急遽升高再急遽下降,给人十分戏剧性的激动感,而器乐主题重头到尾循环反覆进行式,彷佛在陈述一个明知结局却无法停止的抉择,更衬托出人声四部赋格「主我求你垂怜」的哀鸣。中间「基督请你怜悯我」歌词部份,是独唱清柔祈祷风,与合唱清柔祈祷风时而对话,时而互相附合。等祈祷风结束,就又回到器乐与人声二部赋格。
论文名称:Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间:2014年 论文地址: 针对问题: 从Alexnet提出后,作者等人思考如何利用卷积网络来完成检测任务,即输入一张图,实现图上目标的定位(目标在哪)和分类(目标是什么)两个目标,并最终完成了RCNN网络模型。 创新点: RCNN提出时,检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢,作者采用的是Selective Search候选区域提取算法,来获得当前输入图上可能包含目标的不同图像块,再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。 参考博客: 。 论文题目:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间:2014年 论文地址: 针对问题: 该论文讨论了,CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后,在网络后端组织两组卷积或全连接层,一组用于实现定位,输出当前图像上目标的最小外接矩形框坐标,一组用于分类,输出当前图像上目标的类别信息。也是以此为起点,检测网络出现基础主干网络(backbone)+分类头或回归头(定位头)的网络设计模式雏形。 创新点: 在这篇论文中还有两个比较有意思的点,一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的,而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制,那用1x1卷积来替换FC层,是否可行呢?作者在测试时通过将全连接层替换为1x1卷积核证明是可行的;二是提出了offset max-pooling,也就是对池化层输入特征不能整除的情况,通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练,然后切换分类头为回归头,再训练回归头的参数,最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。 参考博客: 论文题目:Scalable Object Detection using Deep Neural Networks 提出时间:2014年 论文地址: 针对问题: 既然CNN网络提取的特征可以直接用于检测任务(定位+分类),作者就尝试将目标框(可能包含目标的最小外包矩形框)提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。 创新点: 本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心,(800个anchor box)然后学习预测不考虑目标类别的二分类网络,背景or前景。用到了多尺度下的检测。 参考博客: 论文题目:DeepBox: Learning Objectness with Convolutional Networks 提出时间:2015年ICCV 论文地址: 主要针对的问题: 本文完成的工作与第三篇类似,都是对目标框提取算法的优化方案,区别是本文首先采用自底而上的方案来提取图像上的疑似目标框,然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序;而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点: 本文作者想通过CNN学习输入图像的特征,从而实现对输入网络目标框是否为真实目标的情况进行计算,量化每个输入框的包含目标的可能性值。 参考博客: 论文题目:AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间:2015年ICCV 论文地址: 主要针对的问题: 对检测网络的实现方案进行思考,之前的执行策略是,先确定输入图像中可能包含目标位置的矩形框,再对每个矩形框进行分类和回归从而确定目标的准确位置,参考RCNN。那么能否直接利用回归的思路从图像的四个角点,逐渐得到目标的最小外接矩形框和类别呢? 创新点: 通过从图像的四个角点,逐步迭代的方式,每次计算一个缩小的方向,并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。 参考博客: 论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间:2014年 论文地址: 针对问题: 如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络,在处理过程中就造成了图像块信息的损失。在实际的场景中,输入网络的目标尺寸很难统一,而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点: 作者提出的SPPnet中,通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸,在训练的时候,池化的操作还是通过滑动窗口完成的,池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。 参考博客 : 论文题目:Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间:2015年 论文地址: 针对问题: 既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位,本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点: 作者通过对输入网络的region进行一定的处理(通过数据增强,使得网络利用目标周围的上下文信息得到更精准的目标框)来增加网络对目标回归框的精度。具体的处理方式包括:扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置,使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性,从而提高了回归框的精度。 参考博客 : 论文题目:Fast-RCNN 提出时间:2015年 论文地址: 针对问题: RCNN中的CNN每输入一个图像块就要执行一次前向计算,这显然是非常耗时的,那么如何优化这部分呢? 创新点: 作者参考了SPPNet(第六篇论文),在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸,从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图,再将原图上用Selective Search算法得到的目标框映射到特征图上,避免了特征的重复提取。 参考博客 : 论文题目:DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间:2015年 论文地址: 主要针对的问题: 本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文,作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。 创新点: 作者在不同的激活层上以滑动窗口的方式生成了假设,并表明最终的卷积层可以以较高的查全率找到感兴趣的对象,但是由于特征图的粗糙性,定位性很差。相反,网络的第一层可以更好地定位感兴趣的对象,但召回率降低。 论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间:2015年NIPS 论文地址: 主要针对的问题: 由multibox(第三篇)和DeepBox(第四篇)等论文,我们知道,用CNN可以生成目标待检测框,并判定当前框为目标的概率,那能否将该模型整合到目标检测的模型中,从而实现真正输入端为图像,输出为最终检测结果的,全部依赖CNN完成的检测系统呢? 创新点: 将当前输入图目标框提取整合到了检测网络中,依赖一个小的目标框提取网络RPN来替代Selective Search算法,从而实现真正的端到端检测算法。 参考博客 :
无声的世界 幻想一下无声的世界将怎样 在我们这个充满着绚丽色彩的世界中,声音起到着重要的作用。没有声音的世界将会怎样。让我们来幻想一下那将会是一个怎样的世界呢?是有趣的?阴冷的?安静的?还是…… 人类是世界的主宰者,首先声音会对人类怎样呢?那就让我们先来谈谈声音对人类的影响吧!如果没有声音,人类会怎样呢?如果没有声音人们说话发不出声音,就像是那些失声的人打着哑语来交谈。人又为什么要耳朵呢?又没有声音能听,难道是用来装饰的吗?现在的那些优美的音乐又怎么会有呢?如果没有声音整个世界都死寂在死一般宁静的宇宙中有何意义呢?如果没有声音,学生们上学如何读书、识字呢?又怎么会有音乐、英语、信息……课程呢?又将如何表达想要表达的意思,难道靠手语吗?我实在无法想象那时的教学会是怎样的。 中国的祖先盘古制造出人类就是他觉得世界太安静了,太缺少生气了,但现在如果没有声音,没有那欢声笑语。那为什么又要有人类呢,有了人类又有何意义呢。我们不是贝多芬,也没有贝多芬的本领,即使听不见,也能够用牙咬住木棍,根据振动颅骨感到声音,但如果没有声音,连声波也没有,即使是贝多芬也不能感受到声音,更别说弹钢琴了。假如没有声音又怎么会有现在的电话呢,如果亲人在远方,他们又将如何交谈呢?难道相隔那么远也能够打手语吗?如果……如果……太多的如果了,我认为这些如果是不可以的,总而言之人类需要声音。 很难想象如果没有声音,人类将怎样生存呢!当然这不只有人类;动物也同样需要声音,如果没有声音连动物也无法生存;举个例子来说吧!蝙蝠可以说是特殊的动物了,它虽然长有一双眼睛,按说听不见总可以看见吧,但是你们可知道被喻为动物界中的“盲人”。它的眼睛是名不副实的,因为它靠得是耳朵。用耳朵听超声波来辨别位置和躲避障碍物的。如果没有声音,蝙蝠听不见声音,捕不到食物,也不能够飞翔,那它还有生存的机会吗,当然不止蝙蝠一种动物,其他动物同样离不开声音。这里举出这个例子强调“地球离不开声音”。 没有声音,人们仿佛生活在真空中,安安静静的,一丝声也没有。没有风声雨声读书声,更加鸟声歌声欢笑声。所以现在有人类生存的这个宇宙中不能没有色彩更加不能没有声音。 如果没有声音,地球将怎样?
噪声污染与水污染、大气污染被看成是世界范围内三个主要环境问题。声音由物体振动引起,以波的形式在一定的介质(如固体、液体、气体)中进行传播。我们通常听到的声音为空气声。一般情况下,人耳可听到的声波频率为20~20,000Hz,称为可听声;低于20Hz,称为次声;高于20,000Hz,称为超声。我们所听到声音的音调的高低取决于声波的频率,高频声听起来尖锐,而低频声给人的感觉较为沉闷。声音的大小是由声音的强弱决定的。从物理学的观点来看,噪声是由各种不同频率、不同强度的声音杂乱、无规律的组合而成;乐音则是和谐的声音。判断一个声音是否属于噪声,仅从物理学角度判断是不够的,主观上的因素往往起着决定性的作用。例如,美妙的音乐对正在欣赏音乐的人来说是乐音,但对于正在学习、休息或集中精力思考问题的人可能是一种噪声。即使同一种声音,当人处于不同状态、不同心情时,对声音也会产生不同的主观判断,此时声音可能成为噪声或乐音。因此,从生理学观点来看,凡是干扰人们休息、学习和工作的声音,即不需要的声音,统称为噪声。当噪声对人及周围环境造成不良影响时,就形成噪声污染。噪声污染按声源的机械特点可分为:气体扰动产生的噪声、固体振动产生的噪声、液体撞击产生的噪声以及电磁作用产生的电磁噪声。噪声的危害主要表现在:干扰睡眠、损伤听力、影响人体生理以及儿童和胎儿的发育。 实验表明,噪声会引起人体紧张的反应刺激肾上素的分泌,从而引起心率改变和血压升 高,故有人认为生活中的噪声是心脏病恶化和发病率增加的一个重要原因;有关研究指出, 噪声会使人 的唾液、胃液分泌减少胃酸降低,从而易患溃疡和十二指肠溃疡,某些吵闹 的工业企业溃疡症的发病率比安静环境的高5倍;噪声对人的内分泌机能产生影响。 此外噪声还对动物和建筑物造成损害。如强噪声会使鸟类羽毛脱落,不下蛋,甚 至内出血,最终死亡。五十年代曾有报道一架高速 飞行的飞机,作六十米低空飞行时,噪声使地面一幢楼房遭破坏。�噪声的来源大致可以分成以下几类:�(1)交通噪声。来自各种交通工具如汽车、火车、飞机等,随着城市车辆的增加,城市交通 噪声也将越来越严重。在我国城市目前的交通噪声中,最严重的是鸣喇叭。�(2)工厂噪声。工厂噪声不仅直接危害生产工人,对附近居民的影响也很大。工业噪声中, 一般电子工业和轻工业的噪声在90分贝以下,纺织厂噪声在90至100分贝之间,机械工业在8 0至120分贝之间,工业噪声是造成职业性耳聋的主要原因。�(3)施工噪声。在房屋修建和道路施工期间,各种建筑机械和运输车辆都产生噪声,对周围 居民干扰很大。�(4)社会噪声。社会活动和家庭生活噪声也普遍存在,如娱乐场所、车站、菜市场、学校等 噪声。家庭中有音响、电视等。� 噪声污染的特点 声音使人感到比较吵时,就认为是噪声污染。噪声污染的特点:一是影响面广;二是它不同与水污染、大气污染与土壤污染,在环境中不会产生累积,当声源停止发声时,噪声污染立刻消失。 噪声污染的防治 1、控制噪声源 2、采用消声装置 3、采用隔音装置 4、绿化造林 噪声的传播一般分为三个阶段:噪声源、传播途径、接受者。传播途径包括反射、衍射等形 式的声波行进过程。控制噪声的原理,就是在噪声到达耳膜之前采取阻声、隔振、吸声、消 声器、个人防护和建筑布局等七大措施。 尽力减弱或降低声源的振动,或将传播中的声能 吸收掉;或设置障碍使声音全部或部分反射出去减弱噪声对耳膜的作用,从而达到控 制噪声的目的。 围绕以上要点进行论述和总结就行了!
论文在查重上面是没有次数要求的,但是尽量越少越好吧。
中央音乐学院,简称央音、中央院,是中国艺术院校中唯一一所国家重点高校和“211工程”建设学校,是一所公认的能代表中国最高专业音乐教育水平的音乐学府。
中央音乐学院,于1940年始建,位于首都北京。
网络音乐对流行音乐的冲击
本科论文查重一般2-3次。论文查重的标准是:1. 论文学术不端行为,文字复制和抄袭是最普遍和最严重的。论文查重系统检测的是论文中重复文字的比例,不是指的论文的抄袭严重程度,论文重复比例越高,说明论文重合字数越多。同时存在抄袭的可能性就越大。是否属于抄袭和剽窃别人论文还是要由学校的专家组来决定。2. 论文查的标准一般是以连续重复N个字符的方式来进行判断的,同时论文查重系统目前不能识别图片、表格和公式。对论文参考文献,进行正确的标注是不计算到重复率中的,如果没有进行标注,论文查重系统还是会计算重复率。3、不同论文查重系统数据库是不一样的,不同的学校要求的论文查重系统是有差异的,并且对重复率要求也是不一样的。一般学校要求重复率在30%左右,比较严格的学校要求重复率在20%左右。
扩展资料:论文查重多少算合格?不同论文的合格查重率标准是不同的,专本科论文查重率低于30%才算合格,硕士论文查重率低于20%才算合格,博士论文低于10%才算合格,普刊论文查重率低于30%才算合格,核心期刊论文查重率低于10%才算合格,不同类型的论文查重率是存在偏差的,论文用户一定要以论文机构的查重要求规范自己的论文撰写。在现在社会中发表一篇优质论文对于这个用户之后的求职就业都是有帮助的,但是论文考核是难以通过的,特别是对于核心期刊论文和硕博论文来说,论文合格标准是非常高的,很多论文用户都会卡在论文降重环节,其实论文降重是存在降重技巧的,了解论文降重技巧能够确保论文用户高效的进行论文降重。
【嵌牛导读】目标检测在现实中的应用很广泛,我们需要检测数字图像中的物体位置以及类别,它需要我们构建一个模型,模型的输入一张图片,模型的输出需要圈出图片中所有物体的位置以及物体所属的类别。在深度学习浪潮到来之前,目标检测精度的进步十分缓慢,靠传统依靠手工特征的方法来提高精度已是相当困难的事。而ImageNet分类大赛出现的卷积神经网络(CNN)——AlexNet所展现的强大性能,吸引着学者们将CNN迁移到了其他的任务,这也包括着目标检测任务,近年来,出现了很多目标检测算法。 【嵌牛鼻子】计算机视觉 【嵌牛提问】如何理解目标检测算法——OverFeat 【嵌牛正文】 一、深度学习的典型目标检测算法 深度学习目标检测算法主要分为 双阶段检测算法 和 单阶段检测算法 ,如图1所示。双阶段目标检测算法先对图像提取候选框,然后基于候选区域做二次修正得到检测结果,检测精度较高,但检测速度较慢;单阶段目标验测算法直接对图像进行计算生成检测结果,检测速度快,但检测精度低。 1、双阶段目标检测算法 双阶段目标检测方法主要通过选择性搜索(Selective Search)或者Edge Boxes等算法对输入图像选取可能包含检测目标的候选区域(Region Proposal),再对候选区域进行分类和位置回归以得到检测结果。 1.1 OverFeat 算法 《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks》 Sermanet 等改进AlexNet 提出 OverFeat 算法。该算法结合AlexNet通过多尺度滑动窗口实现特征提取功能,并且共享特征提取层,应用于图像分类、定位和目标检测等任务。 关键技术: 1、FCN( 全卷积神经网络 ) 对于一个各层参数结构都设计好的网络模型,要求输入图片的尺寸是固定的(例如,Alexnet要求输入图片的尺寸为227px*227px)。如果输入一张500*500的图片,希望模型仍然可以一直前向传导,即一个已经设计完毕的网络,可以输入任意大小的图片,这就是FCN。 FCN的思想在于: 1、从卷积层到全连接层,看成是对一整张图片的卷积层运算。 2、从全连接层到全连接层,看成是采用1*1大小的卷积核,进行卷积层运算。如上图所示,绿色部分代表卷积核大小。假设一个CNN模型,其输入图片大小是14*14,通过第一层卷积后得到10*10大小的图片,然后接着通过池化得到了5*5大小的图片。像但是对于像素值为5*5的图片到像素值为1*1的图片的过程中: (1)传统的CNN:如果从以前的角度进行理解的话,那么这个过程就是全连接层,我们会把这个5*5大小的图片,展平成为一维向量进行计算。 (2)FCN:FCN并不是把5*5的图片展平成一维向量再进行计算,而是直接采用5*5的卷积核,对一整张图片进行卷积运算。 二者本质上是相同的,只是角度不同,FCN把这个过程当成了对一整张特征图进行卷积,同样,后面的全连接层也是把它当做是以1*1大小的卷积核进行卷积运算。 当输入一张任意大小的图片,就需要利用以上所述的网络,例如输入一张像素为16*16的图片:根据上图,该网络最后的输出是一张2*2的图片。可见采用FCN网络可以输入任意大小的图片。同时需要注意的是网络最后输出的图片大小不在是一个1*1大小的图片,而是一个与输入图片大小息息相关的一张图片。 Overfeat就是把采用FCN的思想把全连接层看成了卷积层,在网络测试阶段可以输入任意大小的图片。 2、offset max-pooling 简单起见,不用二维的图像作为例子,而是采用一维作为示例: 如上图所示,在X轴上有20个神经元,并且选择池化size=3的非重叠池化,那么根据之前所学的方法应该是:对上面的20个神经元,从1位置开始进行分组,每3个连续的神经元为一组,然后计算每组的最大值(最大池化),19、20号神经元将被丢弃,如下图所示: 或者可以在20号神经元后面,添加一个数值为0的神经元编号21,与19、20成为一组,这样可以分成7组:[1,2,3],[4,5,6]……, [16,17,18],[19,20,21],最后计算每组的最大值。 如果只分6组,除了以1作为初始位置进行连续组合之外,也可以从位置2或者3开始进行组合。也就是说其实有3种池化组合方法: A、△=0分组:[1,2,3],[4,5,6]……,[16,17,18]; B、△=1分组:[2,3,4],[5,6,7]……,[17,18,19]; C、△=2分组:[3,4,5],[6,7,8]……,[18,19,20]; 对应图片如下: 以往的CNN中,一般只用△=0的情况,得到池化结果后,就送入了下一层。但是该文献的方法是,把上面的△=0、△=1、△=2的三种组合方式的池化结果,分别送入网络的下一层。这样的话,网络在最后输出的时候,就会出现3种预测结果了。 前面所述是一维的情况,如果是2维图片的话,那么(△x,△y)就会有9种取值情况(3*3);如果我们在做图片分类的时候,在网络的某一个池化层加入了这种offset 池化方法,然后把这9种池化结果,分别送入后面的网络层,最后的图片分类输出结果就可以得到9个预测结果(每个类别都可以得到9种概率值,然后我们对每个类别的9种概率,取其最大值,做为此类别的预测概率值)。 算法原理: 文献中的算法,就是把这两种思想结合起来,形成了文献最后测试阶段的算法。 1、论文的网络架构与训练阶段 (1)网络架构 对于网络的结构,文献给出了两个版本——快速版、精确版,一个精度比较高但速度慢;另外一个精度虽然低但是速度快。下面是高精度版本的网络结构表相关参数: 表格参数说明: 网络输入:图片大小为221px*221px; 网络结构方面基本上和AlexNet相同,使用了ReLU激活,最大池化。不同之处在于:(a)作者没有使用局部响应归一化层;(b)然后也没有采用重叠池化的方法;(c)在第一层卷积层,stride作者是选择了2,这个与AlexNet不同(AlexNet选择的跨步是4,在网络中,如果stride选择比较大得话,虽然可以减少网络层数,提高速度,但是却会降低精度)。 需要注意的是把f7这一层,看成是卷积核大小为5*5的卷积层,总之就是需要把网络看成前面所述的FCN模型,去除了全连接层的概念,因为在测试阶段可不是仅仅输入221*221这样大小的图片,在测试阶段要输入各种大小的图片,具体请看后面测试阶段的讲解。 (2)网络训练 训练输入:对于每张原图片为256*256,然后进行随机裁剪为221*221的大小作为CNN输入,进行训练。 优化求解参数设置:训练的min-batchs选择128,权重初始化选择高斯分布的随机初始化: 然后采用随机梯度下降法,进行优化更新,动量项参数大小选择0.6,L2权重衰减系数大小选择10-5次方。学习率初始化值为0.05,根据迭代次数的增加,每隔几十次的迭代后,就把学习率的大小减小一半。 然后就是DropOut,这个只有在最后的两个全连接层,才采用dropout,dropout比率选择0.5。 2、网络测试阶段 在Alexnet的文献中,预测方法是输入一张图片256*256,然后进行multi-view裁剪,也就是从图片的四个角进行裁剪,还有就是一图片的中心进行裁剪,这样可以裁剪到5张224*224的图片。然后把原图片水平翻转一下,再用同样的方式进行裁剪,又可以裁剪到5张图片。把这10张图片作为输入,分别进行预测分类,在后在softmax的最后一层,求取个各类的总概率,求取平均值。 然而Alexnet这种预测方法存在两个问题: 一方面这样的裁剪方式,把图片的很多区域都给忽略了,这样的裁剪方式,刚好把图片物体的一部分给裁剪掉了; 另一方面,裁剪窗口重叠存在很多冗余的计算,像上面要分别把10张图片送入网络,可见测试阶段的计算量还是较大的。 Overfeat算法: 训练完上面所说的网络之后,在测试阶段不再是用一张221*221大小的图片了作为网络的输入,而是用了6张大小都不相同的图片,也就是所谓的多尺度输入预测,如下表格所示: 当网络前向传导到layer 5的时候,就利用了前面所述的FCN、offset pooling这两种思想的相结合。现以输入一张图片为例(6张图片的计算方法都相同),讲解layer 5后面的整体过程,具体流程示意图如下: 步骤一: 对于某个尺度的图片,经过前五层的卷积后得到特征图。上图中特征图的分辨率是20x23,256个通道。 步骤二: 对于该特征图,重复多次使用非重叠的池化,每次池化的偏置不同,有行偏置和列偏置。上图中偏置池化3次,偏置分别为为(0,1,2)。这就是offset pooling,也被称为fine stride。offset pooling得到的特征图的维度为6x7x3x3xD,其中6x7是特征图的分辨率,3x3是偏置池化的次数,D是通道数。上图中是以1维显示的。 步骤三: 池化后得到的特征图将被送入分类器。 步骤四: 分类器的输入是的5x5xD,输出是C(类别数)维向量。但是offset pooling后得到的特征图并不是5x5xD,比如上图中的特征图大小为6x7xD,因此分类器以滑动窗口的方式应用在特征图上,每个滑动窗口经过分类器输出一个C维向量。比如上图中输入的6x7xD的特征图最终得到2x3xC的输出,其中2x3是滑动窗口的个数。 步骤五: 而2x3xC只是一组偏置池化的输出,总的输出为2x3x3x3xC,将输出的张量reshape,得到6x9xC输出张量。最终输出分类张量为3d张量,即两个分辨率维度 x C维。 然后需要在后面把它们拉成一维向量,这样在一个尺度上,可以得到一个C*N个预测值矩阵,每一列就表示图片属于某一类别的概率值,并且求取每一列的最大值,作为本尺度的每个类别的概率值。 最后一共用了6种不同尺度(文献使用了12张,另外6张是水平翻转的图片)进行做预测,然后把这六种尺度结果再做一个平均,作为最最后的结果。 从上面过程可以看到整个网络分成两部分:layer 1~5这五层称之为特征提取层;layer 6~output称之为分类层。 六、定位任务 用于定位任务的时候,就把分类层(上面的layer 6~output)给重新设计一下,把分类改成回归问题,然后在各种不同尺度上训练预测物体的bounding box。
论文名称:Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间:2014年 论文地址: 针对问题: 从Alexnet提出后,作者等人思考如何利用卷积网络来完成检测任务,即输入一张图,实现图上目标的定位(目标在哪)和分类(目标是什么)两个目标,并最终完成了RCNN网络模型。 创新点: RCNN提出时,检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢,作者采用的是Selective Search候选区域提取算法,来获得当前输入图上可能包含目标的不同图像块,再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。 参考博客: 。 论文题目:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间:2014年 论文地址: 针对问题: 该论文讨论了,CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后,在网络后端组织两组卷积或全连接层,一组用于实现定位,输出当前图像上目标的最小外接矩形框坐标,一组用于分类,输出当前图像上目标的类别信息。也是以此为起点,检测网络出现基础主干网络(backbone)+分类头或回归头(定位头)的网络设计模式雏形。 创新点: 在这篇论文中还有两个比较有意思的点,一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的,而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制,那用1x1卷积来替换FC层,是否可行呢?作者在测试时通过将全连接层替换为1x1卷积核证明是可行的;二是提出了offset max-pooling,也就是对池化层输入特征不能整除的情况,通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练,然后切换分类头为回归头,再训练回归头的参数,最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。 参考博客: 论文题目:Scalable Object Detection using Deep Neural Networks 提出时间:2014年 论文地址: 针对问题: 既然CNN网络提取的特征可以直接用于检测任务(定位+分类),作者就尝试将目标框(可能包含目标的最小外包矩形框)提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。 创新点: 本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心,(800个anchor box)然后学习预测不考虑目标类别的二分类网络,背景or前景。用到了多尺度下的检测。 参考博客: 论文题目:DeepBox: Learning Objectness with Convolutional Networks 提出时间:2015年ICCV 论文地址: 主要针对的问题: 本文完成的工作与第三篇类似,都是对目标框提取算法的优化方案,区别是本文首先采用自底而上的方案来提取图像上的疑似目标框,然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序;而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点: 本文作者想通过CNN学习输入图像的特征,从而实现对输入网络目标框是否为真实目标的情况进行计算,量化每个输入框的包含目标的可能性值。 参考博客: 论文题目:AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间:2015年ICCV 论文地址: 主要针对的问题: 对检测网络的实现方案进行思考,之前的执行策略是,先确定输入图像中可能包含目标位置的矩形框,再对每个矩形框进行分类和回归从而确定目标的准确位置,参考RCNN。那么能否直接利用回归的思路从图像的四个角点,逐渐得到目标的最小外接矩形框和类别呢? 创新点: 通过从图像的四个角点,逐步迭代的方式,每次计算一个缩小的方向,并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。 参考博客: 论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间:2014年 论文地址: 针对问题: 如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络,在处理过程中就造成了图像块信息的损失。在实际的场景中,输入网络的目标尺寸很难统一,而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点: 作者提出的SPPnet中,通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸,在训练的时候,池化的操作还是通过滑动窗口完成的,池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。 参考博客 : 论文题目:Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间:2015年 论文地址: 针对问题: 既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位,本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点: 作者通过对输入网络的region进行一定的处理(通过数据增强,使得网络利用目标周围的上下文信息得到更精准的目标框)来增加网络对目标回归框的精度。具体的处理方式包括:扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置,使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性,从而提高了回归框的精度。 参考博客 : 论文题目:Fast-RCNN 提出时间:2015年 论文地址: 针对问题: RCNN中的CNN每输入一个图像块就要执行一次前向计算,这显然是非常耗时的,那么如何优化这部分呢? 创新点: 作者参考了SPPNet(第六篇论文),在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸,从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图,再将原图上用Selective Search算法得到的目标框映射到特征图上,避免了特征的重复提取。 参考博客 : 论文题目:DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间:2015年 论文地址: 主要针对的问题: 本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文,作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。 创新点: 作者在不同的激活层上以滑动窗口的方式生成了假设,并表明最终的卷积层可以以较高的查全率找到感兴趣的对象,但是由于特征图的粗糙性,定位性很差。相反,网络的第一层可以更好地定位感兴趣的对象,但召回率降低。 论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间:2015年NIPS 论文地址: 主要针对的问题: 由multibox(第三篇)和DeepBox(第四篇)等论文,我们知道,用CNN可以生成目标待检测框,并判定当前框为目标的概率,那能否将该模型整合到目标检测的模型中,从而实现真正输入端为图像,输出为最终检测结果的,全部依赖CNN完成的检测系统呢? 创新点: 将当前输入图目标框提取整合到了检测网络中,依赖一个小的目标框提取网络RPN来替代Selective Search算法,从而实现真正的端到端检测算法。 参考博客 :