沈雨娇写的论文有撵炉胶,春夜喜雨等论文。沈雨娇的很多偏关于社会学的论文,发表在人才杂志上,引起很大反向。
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。* 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。* Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现 语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性 语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎 微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标 语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。小结以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。
1、基于环境行为学的特色书店设计研究 2、试论社交媒体带来的人际交往空间演变 3、高校大学生创业实验基地室内空间设计研究 4、休闲旅游背景下的乡村旧建筑改造研究 5、众创时代下的创新型孵化器建筑设计研究 6、广州地区高校学生活动中心建筑设计研究 7、城市商业中心娱乐休闲场所微区位研究 8、基于HMM和ANN混合模型的语音识别技术的研究 9、酒店“工资总额动态包干制”过程和效果研究 10、梦吧咖啡厅营销策略研究 11、高校校园边缘空间的优化方法研究 12、中国城市青年旅舍设计研究 13、功能复合化趋势下的博物馆空间组织研究 14、基于商业业态提升的古镇风貌整治 15、工业风在小空间威斯汀咖啡厅的应用 16、高校学生宿舍功能配置设计研究 17、四种类型公共场所室内PM 18、《树洞》心灵咖啡店商业计划书 19、长春市中心城区文化娱乐业空间格局演变研究 20、临颍县电影院室内设计 21、集约空间理念在室内设计中的应用 22、大学图书馆非正式学习空间设计研究 23、基于互联网+背景下的茶楼商业模式转型研究 24、旧工业建筑改造为博物馆案例解析 25、环境行为学理论下的大学整体式教学楼设计研究 26、基于心理账户弹性特征下消费者行为决策的研究 27、基于街区尺度的城市休闲空间研究 28、城市自助旅游者消费行为研究 29、五星级酒店部门着装及配比设计研究 30、日本不同形态咖啡店的社会作用研究 31、色彩搭配在咖啡厅空间设计中的应用研究 32、温情治愈系动画创作模式研究 33、清大智博公司东师咖啡厅营销策略研究 34、高层总部办公建筑交往空间研究 35、娱乐的力量 36、大数据与PSPL调研法相结合的美国城市主街区公共空间调查与研究 37、“佳缘”校园文化咖啡厅联盟商业计划书 38、高校学术交流中心设计研究 39、济南市区餐饮店名研究 40、咖啡厅管理系统的分析与设计 41、城市综合性公园餐饮服务设施的规划与设计 42、餐饮空间的情景式设计方法研究 43、企业自用办公楼公共空间设计研究 44、公共建筑中人性化的服务空间 45、当代医疗建筑公共空间人性化设计的相关研究 46、广州餐饮业店名的社会语言学考察 47、高校餐饮空间多元性设计初探 48、广州市大学校园居学社区的建构研究 49、基于话题分类的汉语教学影视片段资源库构建 50、基于用户体验的咖啡厅营销推广设计研究 51、妹岛和世建筑创作的时代适应性研究 52、蒙太奇在微电影《爱在等待》中的应用 53、中原咖啡的中国市场营销策略研究 54、治愈系主题酒店室内空间设计研究 55、手办模型主题咖啡店设计研究 56、高校图书馆复合型非正式学习空间的研究 57、成都市中心区餐饮业空间结构及影响因素研究 58、丹麦当代文化建筑场所精神的营造 59、南京夫子庙历史文化街区旅游商业化研究 60、当代博物馆的复合化设计策略研究 61、大连城市中青年游戏休闲行为研究 62、语域理论视角下的幽默研究 63、博物馆教育活动研究 64、创新和成长导向下的大学校园声环境及建设策略研究 65、后现代文化背景下的文化艺术区比较研究 66、文化娱乐设施集聚区建设研究 67、研究型大学的协同创新空间设计策略研究 68、我迷故我在 69、复合空间视野下当代学术型图书馆的'行为模式与空间定位 70、商务型会所的研究 71、体现饮食文化特色的厦门大学马来西亚分校餐饮空间构建策略及设计研究 72、厦门大学马来西亚分校“学生中心”设计研究 73、骑行行动咖啡品牌策略研究 74、北京地区星级酒店餐饮功能和空间设计研究 75、博物馆公共空间使用后评价 76、译者素养在翻实践中的体现 77、国内星级酒店餐饮空间策划与设计 78、温泉度假酒店空间设计研究 79、以行为需求为导向的广州地区大学生宿舍底层空间设计研究 80、公共建筑外部空间的公共性策略研究 81、关于茶馆休闲空间的社会功能分析 82、上海休闲娱乐区布局及设施配置研究 83、成都CF咖啡师培训学校创业计划书 84、研发型高科技园办公区的休闲空间研究 85、餐饮业员工情绪劳动、组织承诺对服务破坏的影响 86、餐饮空间室内光环境意境塑造研究 87、基于移动设备的O2O电子商务平台的设计与实现 88、高校青年教师工作压力的社会工作介入研究 89、论海口骑楼建筑文化在当代室内空间设计中的应用 90、平庸与日常的“观照”-《此处》的创作阐释 91、大学设计专业学习行为模式及交往场所研究 92、高校图书馆学习共享空间设计研究 93、城市中心区高层建筑近地空间与城市公共空间整合探研 94、现代综合医院餐饮服务空间建筑设计研究 95、城市遗产视角下的西安德福巷研究 96、高层办公建筑内部公共空间设计研究 97、岭南地区复合型文化建筑休闲空间设计研究 98、中关村科技园区公共交往空间研究 99、旅游广告中民族文化传播问题研究 100、大型博物馆主要公众服务空间设计 101、办公室设计对员工身心健康正向影响之可能性 102、基于“乐活”理念的城市滨水区游憩行为研究 103、如何提高谈话类节目的魅力-栏目《三百六十行》创作分析 104、巴黎博物馆“非展览类”公共空间功能复合化研究 105、原生装饰系统在咖啡休闲空间中的应用
1.《基于深度学习的自然语言处理技术研究》2.《基于深度学习的计算机视觉技术研究》3.《基于深度学习的语音识别技术研究》4.《基于深度学习的机器翻译技术研究》5.《基于深度学习的自动驾驶技术研究》6.《基于深度学习的智能家居技术研究》7.《基于深度学习的智能机器人技术研究》8.《基于深度学习的智能推荐系统技术研究》9.《基于深度学习的自然语言理解技术研究》10.《基于深度学习的智能安全技术研究》
沈雨娇为我院2012级英语专业本科学生,2017年考上上海外国语大学英语语言文学专业研究生,研究方向为跨文化交际,师从上外跨文化中心主任顾力行教授(Steve J. Kulich)和复旦大学人类社会学博士张晓佳老师。2021年1月获得日本早稻田大学的博士录取通知书,6月获得国家留学基金委员会公派奖学金,将于2022年4月赴日进行为期三年的博士学习,专业为国际文化与交流,研究方向为视觉文化,师从早稻田大学国际文化与交流学院主任吉本光弘教授。
语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!
语音识别技术概述
作者:刘钰 马艳丽 董蓓蓓
摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。
关键词:语音识别;特征提取;模式匹配;模型训练
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、语音识别技术的理论基础
语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。
(一) 语音识别单元的选取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
(二) 特征参数提取技术
语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。
也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。
(三)模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。
人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。
二、语音识别的困难与对策
目前,语音识别方面的困难主要表现在:
(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。
三、语音识别技术的前景和应用
语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
参考 文献 :
[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,2007.2:(总l12期)
[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20
[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)
[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991
[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005
[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999
点击下页还有更多>>>浅谈语音识别技术论文
沈雨娇为我院2012级英语专业本科学生,2017年考上上海外国语大学英语语言文学专业研究生,研究方向为跨文化交际,师从上外跨文化中心主任顾力行教授(Steve J. Kulich)和复旦大学人类社会学博士张晓佳老师。2021年1月获得日本早稻田大学的博士录取通知书,6月获得国家留学基金委员会公派奖学金,将于2022年4月赴日进行为期三年的博士学习,专业为国际文化与交流,研究方向为视觉文化,师从早稻田大学国际文化与交流学院主任吉本光弘教授。
做好嘈杂环境的语音识别,难点是如何将杂音与人声分离。传统的音频识别需要人工设计模块,并依靠Hidden Markov Models,常常需要大量的人力和经验来调整模型噪音和语音变异。未来的主要研究方向是,通过深度学习来替代Hidden Markov Models,如基于递归神经网络的深度神经网络(DNN)进行声学建模,使得语音识别系统变得更为简单。日立公司宣称自己已经研发出一项新技术,利用对话音量比杂音变化较少的特点,将杂音与话音进行分离。
1.《基于深度学习的自然语言处理技术研究》2.《基于深度学习的计算机视觉技术研究》3.《基于深度学习的语音识别技术研究》4.《基于深度学习的机器翻译技术研究》5.《基于深度学习的自动驾驶技术研究》6.《基于深度学习的智能家居技术研究》7.《基于深度学习的智能机器人技术研究》8.《基于深度学习的智能推荐系统技术研究》9.《基于深度学习的自然语言理解技术研究》10.《基于深度学习的智能安全技术研究》
CMU Sphinx是目前语音识别技术中比较热门的开源技术之一。CMU Sphinx 是一款源于卡内基梅隆大学的产品。它的研发历史大约可以追溯到1988年李开复的一篇论文,目前在 GitHub 和 SourceForge 平台同步更新。在 GitHub 平台有 C 和 Java 两个版本,而且据说分别只有一个管理员维护。但在 SourceForge 平台却有 9 个管理员和十几个开发者。CMU Sphinx 具有包括普通话、英语、法语、西班牙语和意大利语在内的诸多语音可以直接使用的模型。 在介绍如何使用CMU Sphinx之前,先简单了解一下语音识别的相关概念。 在目前的实践中,语音结构可以理解如下: 语音是一种由稳定状态和动态变化的状态混合而成的连续音频流(audio stream)。在这一系列状态中,可以对声音和音素定义若干相似的类别。声波往往由语音内容,发言者和发音方式等各种音素决定。 识别语音的一般方法如下:针对一段声波,使用沉默将其分割成若干短发音,然后试着去识别每段发音中的内容。为此,可以用尽可能的单词组合去匹配音频,然后选出最佳的匹配方案,作为语音识别的结果。 在这个匹配过程中几个比较重要的概念。首先介绍“特征”的概念。首先语音需要被分解成一系列“帧”,每10毫秒一帧,然后对于每一帧,提取39个数字来表征该段语音,这39个数字称之为“特征向量”。如何从音频的每帧中提取数字是个广泛研究的话题,一种简单的方式就是由声谱衍生出来。 接下来介绍一下“模型”的概念。模型是一种汇集了语音的共同属性的数学模型。实际应用中,一个音素的声学模型往往是其最可能的特征向量的高斯混合模型。该语音模型通常称之为隐马尔可夫模型( Hidden Markov Model,HMM),HMM是语音识别领域中一种常用的模型。 然后就是“匹配过程”的概念,匹配过程是将特征向量与所有坑你的模型进行比较,然后得出最佳的匹配方案。 根据语音的结构,语音识别过程中需要用到三种不同的模型。 参考:
这两天在公司做PM实习,主要是自学一些CV的知识,以了解产品在解决一些在图像识别、图像搜索方面的问题,学习的主要方式是在知网检索了6.7篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系,后面还会继续更新图片相似度计算(以图搜图)等方面的学习成果 将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题(主要是卷积神经网络CNNs)的基础过程和原理,但这里不会深入到技术的实现层面。
计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。 ————维基百科 通常而言,计算机视觉的研究包括三个层次: (1)底层特征的研究: 这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征,具体的研究内容通常包括:物体识别、字符识别等 (2)中层语义特征的研究: 该层次的研究在于在识别出对象的基础上,对其位置、边缘等信息能够准确区分。现在比较热门的:图像分割;语义分割;场景标注等,都属于该领域的范畴 (3)高层语义理解: 这一层次建立在前两层的基础上,其核心在于“理解”一词。 目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于:场景识别、图像摘要生成及图像语义回答等。 而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。
人类的视觉工作模式是这样的: 首先,我们大脑中的神经元接收到大量的信息微粒,但我们的大脑还并不能处理它们。 于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。 接着,无数条线又整合成一个个轮廓。 最后多个轮廓累加终于聚合我们现在眼前看到的样子。 计算机科学受到神经科学的启发,也采用了类似的工作方式。具体而言,图像识别问题一般都遵循下面几个流程
(1)获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在 (2)数据预处理工作,在图像识别领域主要包括四个方面的技术:去噪处理(提升信噪比)、图像增强和图像修复(主要针对不够清晰或有破损缺失的图像);归一化处理(一方面是为了减少开销、提高算法的性能,另一方面则是为了能成功使用深度学习等算法,这类算法必须使用归一化数据)。 (3)特征提取,这一点是该领域的核心,也是本文的核心。图像识别的基础是能够提取出足够高质量,能体现图像独特性和区分度的特征。 过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法,如PCA\LCA等来提取一些人工设计的特征,主要的方法有(HOG、LBP以及十分著名的SIFT算法)。但是这些方法普遍存在(a)一般基于图像的一些提层特征信息(如色彩、纹理等)难以表达复杂的图像高层语义,故泛化能力普遍比较弱。(b)这些方法一般都针对特定领域的特定应用设计,泛化能力和迁移的能力大多比较弱。 另外一种思路是使用BP方法,但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题(每个元素都要负责底层的所有参数),另外也不能根据样本对训练过程进行优化,实在是费时又费力。 因此,一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中,以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线,由于其使用权重共享和特征降采样,充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中,目前使用较多又最为主流的是CNN算法,在第四部分主要也研究CNN方法的机理。
上图是一个简易的神经网络,只有一层隐含层,而且是全连接的(如图,上一层的每个节点都要对下一层的每个节点负责。)具体神经元与神经元的作用过程可见下图。
在诸多传统的神经网络中,BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是:导入训练样本、计算期望值和实际值之间的差值,不断地调整权重,使得误差减少的规定值的范围内。其具体过程如下图:
一般来说,机器学习又分成浅层学习和深度学习。传统的机器学习算法,如SVM、贝叶斯、神经网络等都属于浅层模型,其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。 如果是有多个隐含层的多层神经网络(一般定义为大于5层),那么我们将把这个模型称为深度学习,其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够,特别是在复杂问题分类情况上容易出现分类不足的弊端,深度网络的优势则在于其多层的架构可以分层表示逻辑,这样就可以用简单的方法表示出复杂的问题,一个简单的例子是: 如果我们想计算sin(cos(log(exp(x)))), 那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)
图像识别问题是物体识别的一个子问题,其鲁棒性往往是解决该类问题一个非常重要的指标,该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了: (1)噪音(2)尺度变化(3)旋转(4)光线变化(5)位移
该部分具体的内容,想要快速理解原理的话推荐看[知乎相关文章] ( ), 特别是其中有些高赞回答中都有很多动图和动画,非常有助于理解。 但核心而言,CNN的核心优势在于 共享权重 以及 感受野 ,减少了网络的参数,实现了更快的训练速度和同样预测结果下更少的训练样本,而且相对于人工方法,一般使用深度学习实现的CNN算法使用无监督学习,其也不需要手工提取特征。
CNN算法的过程给我的感觉,个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性:局部感知、权重共享和池化。
CNN中的神经元主要分成了两种: (a)用于特征提取的S元,它们一起组成了卷积层,用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数(控制输出对输入的反映敏感度)和感受野参数(决定了从输入层中提取多大的空间进行输入,可以简单理解为擦玻璃的抹布有多大) (b)抗形变的C元,它们一起组成了池化层,也被称为欠采样或下采样。主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。 (c*)激活函数,及卷积层输出的结果要经过一次激励函数才会映射到池化层中,主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。
也许你会抱有疑问,CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到,一个全连接中,较高一层的每个神经元要对低层的每一个神经元负责,从而导致了过拟合和维度灾难的问题。但是有了区域感受野和,每个神经元只需要记录一个小区域,而高层会把这些信息综合起来,从而解决了全连接的问题。
了解区域感受野后,你也许会想,区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢,这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图,下面给大家一个很直观的理解。
上面的这个过程就被称为一个卷积核。在实际应用中,单特征不足以被系统学习分类,因此我们往往会使用多个滤波器,每个滤波器对应1个卷积核,也对应了一个不同的特征。比如:我们现在有一个人脸识别应用,我们使用一个卷积核提取出眼睛的特征,然后使用另一个卷积核提取出鼻子的特征,再用一个卷积核提取出嘴巴的特征,最后高层把这些信息聚合起来,就形成了分辨一个人与另一个人不同的判断特征。
现在我们已经有了区域感受野,也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题: 给一个100 100的参数空间,假设我们的感受野大小是10 10,那么一共有squar(1000-10+1)个,即10的六次方个感受野。每个感受野中就有100个参数特征,及时每个感受野只对应一个卷积核,那么空间内也会有10的八次方个次数,,更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数,这就引出了权重共享的概念。 用一句话概括就是,对同一个特征图,每个感受野的卷积核是一样的,如这样操作后上例只需要100个参数。
池化是CNN技术的最后一个特性,其基本思想是: 一块区域有用的图像特征,在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据,但往往相邻的边缘具有相似的特性,就好像我们已经得到了一个强边缘,再拥有大量相似的次边缘特征其实是没有太大增量价值的,因为这样会使得系统里充斥大量冗余信息消耗计算资源。 具体而言,池化层把语义上相似的特征合并起来,通过池化操作减少卷积层输出的特征向量,减少了参数,缓解了过拟合问题。常见的池化操作主要包括3种: 分别是最大值池化(保留了图像的纹理特征)、均值池化(保留了图像的整体特征)和随机值池化。该技术的弊端是容易过快减小数据尺寸,目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法,原因是池化会带来一定程度上表征的位移不变性,传统观点认为这是一个优势,但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息,利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征,有望冲破目前卷积网络构架的瓶颈。
CNN总体来说是一种结构,其包含了多种网络模型结构,数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外,CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。
该部分的核心参考文献: 《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36. 深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势,在这里首先对深度学习的基本概念作一简介,其次对深度学习常用的结构模型进行概述说明,主要简述了深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)、生成式对抗网络(GAN)、胶囊网络(CapsNet)以及对各个深度模型的改进模型做一对比分析。
深度学习按照学习架构可分为生成架构、判别架构及混合架构。 其生成架构模型主要包括: 受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括:深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括:受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。 监督学习方法主要包括:深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明,监督学习与非监督学习之间无明确的界限,如:深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。
[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科
图像识别技术是人工智能研究的一个重要分支,也是人们日常生活中使用最广泛的人工智能技术之一。近年来,随着深度学习技术的发展,图像识别准确率显著提高。本论文研究了图像识别的传统技术和深度学习技术,分析了深度学习技术的几点不足,并给出未来可行的解决方案。【关键词】人工智能 图像识别 深度学习1 概述图像识别技术是人工智能研究的一个重要分支,其是以图像为基础,利用计算机对图像进行处理、分析和理解,以识别不同模式的对象的技术。目前图像识别技术的应用十分广泛,在安全领域,有人脸识别,指纹识别等;在军事领域,有地形勘察,飞行物识别等;在交通领域,有交通标志识别、车牌号识别等。图像识别技术的研究是更高级的图像理解、机器人、无人驾驶等技术的重要基础。传统图像识别技术主要由图像处理、特征提取、分类器设计等步骤构成。通过专家设计、提取出图像特征,对图像进行识别、分类。近年来深度学习的发展,大大提高了图像识别的准确率。深度学习从大量数据中学习知识(特征),自动完成特征提取与分类任务。但是目前的深度学习技术过于依赖大数据,只有在拥有大量标记训练样本的情况下才能够取得较好的识别效果。
主要应用领域图像识别技术可能是以图像的主要特征为基础的,每个图像都有它的特征。在人类图像识别系统中,对复杂图像的识别往往要通过不同层次的信息加工才能实现。图像识别技术是立体视觉、运动分析、数据融合等实用技术的基础,在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域可广泛应用。遥感图像识别航空遥感和卫星遥感图像通常用图像识别技术进行加工以便提取有用的信息。该技术目前主要用于地形地质探查,森林、水利、海洋、农业等资源调查,灾害预测,环境污染监测,气象卫星云图处理以及地面军事目标识别等。军事刑侦图像识别技术在军事、公安刑侦方面的应用很广泛,例如军事目标的侦察、制导和警戒系统;自动灭火器的控制及反伪装;公安部门的现场照片、指纹、手迹、印章、人像等的处理和辨识;历史文字和图片档案的修复和管理等等。生物医学图像识别在现代医学中的应用非常广泛,它具有直观、无创伤、安全方便等特点。在临床诊断和病理研究中广泛借助图像识别技术,例如CT(ComputedTomography)技术等。机器视觉作为智能机器人的重要感觉器官,机器视觉主要进行3D图像的理解和识别,该技术也是目前研究的热门课题之一。机器视觉的应用领域也十分广泛,例如用于军事侦察、危险环境的自主机器人,邮政、医院和家庭服务的智能机器人。此外机器视觉还可用于工业生产中的工件识别和定位,太空机器人的自动操作等。总结:人工智能前景不可限量,图像识别作为AI技术的支撑,是一种强有力的识别方式,随着AI在场景上的深入,图像识别应用领域会越来越广。
一、CCD图像传感器CCD(ChargedCoupledDevice)于1969年在贝尔试验室研制成功,之后由日本开始批量生产,经过30多年的发展历程,从初期的10多万像素已经发展至今天主流应用的500万像素。CCD类型又可分为线阵(Linear)与面阵(Area)两种,其中线阵应用于影像扫描器及传真机上,面阵型多应用于数码相机、摄录影机、监视摄影机等多项影像输入产品上。目前CCD像元数已从100万像元提高到2000万像元以上,大面阵、小像元(感光小单元简称)的CCD摄像机层出不穷。随着超大规模微加工技术的发展,CCD传感器的分辨率将越来越高。CCD是固态图像传感器的一类,即电荷耦合式图像传感器,固态图像传感器是指将布设在半导体衬底上许多能实现光-电信号转换的小单元,用所控制的时钟脉冲实现读取的一类功能器件。图像传感器作为一种基础器件,因能实现信息的获取、转换和视觉功能的扩展,并能给出直观、真实、层次多、内容丰富的可视图像信息在现代社会中得到了越来越广泛地应用。二、图像识别系统定位的工作原理在现实生活中,人们可以很容易的“看到”一幅画面,但这一个十分“简单”过程并非如此简单。深入研究大致分为:成像在视网膜上;其次是大脑对图像进行认识、理解和分析;最后根据上述一系列处理的结果做出反应。由于图像识别系统基本上是摸仿了人对事物的认识过程,图像识别系统定位是采用了CCD摄像机(如同人的眼睛)通过透镜收集并聚焦来自目标的反射光线,借助必要的光学系统将此光投射于CCD光敏面上的光的空间分布信息转换为按时序输出的电信号—视频图像信号,可以在监视器上重现图像。
链路质量评估,能耗管理,网络覆盖
在学习和工作中,大家或多或少都会接触过论文吧,通过论文写作可以培养我们的科学研究能力。相信写论文是一个让许多人都头痛的问题,以下是我帮大家整理的软件工程论文参考文献范文,欢迎阅读,希望大家能够喜欢。
[1]刘洪峰,陈江波.网络开发技术大全[M].人民邮电出版社,2005:119-143.
[2]程成,陈霞.软件工程[M].机械工业出版社,2003:46-80.
[3]舒红平.Web 数据库编程-Java[M].西安电子科技大学出版社,2005:97-143.
[4]徐拥军.从档案收集到知识积累[M].是由工业出版社,2008:6-24.
[5]纪新.转型期大型企业集团档案管理模式研究[D].天津师范大学,2008:46-57.
[6]周玉玲.纸质与电子档案共存及网络环境电子档案管理模式[J].中国科技博览,2009:44-46.
[7]张寅玮.甘肃省电子档案管理研究[D]. 兰州大学,2011:30-42
[8]惠宏伟.面向数字化校园的档案信息管理系统的研究与实现[D]. 电子科技大学,2006:19-33
[9]刘冬立.基于 Web 的企业档案管理系统的设计与实现[D].同济大学,2007:14-23
[10]钟瑛.浅议电子文件管理系统的功能要素[J]. 档案学通讯,2006:11-20
[11]杜献峰 . 基于三层 B/S 结构的`档案管理系统开发 [J]. 中原工学院学报,2009:19-25
[12]林鹏,李田养. 数字档案馆电子文件接收管理系统研究及建设[J].兰台世界,2008:23-25
[13]汤星群.基于数字档案馆建设的两点思考[J].档案时空,2005:23-28
[14]张华丽.基于 J2EE 的档案管理系统设计与实现[J].现代商贸工业. 2010:14-17
[15]Gary P Johnston,David V. Bowen.he benefits of electronic recordsmanagement systems: a general review of published and some unpublishedcases. RecordsManagement Journal,2005:44-52
[16]Keith Gregory.Implementing an electronic records management system: Apublic sector case study. Records Management Journal,2005:17-21
[17]Duranti Luciana.Concepts,Principles,and Methods for the Management of Electronic RecordsR[J].Information Society,2001:57-60.
[18]Lynn C Westney.Intrinsic value and thepermanent record the preservation conundrum[M].International digital library perspectives,2007:34-89.
[19]Aleksej Jerman Blai.Long-term trustedpreservation service using service interaction proto-col and evidence records[J].Computers and Standards,2007:23-29.
[20]Carmela Troncoso.Improving Secure Long-Term Archival of Digitally Signed Documents[M].Proceedings of the4th ACM international workshop on Storage secu-rity and survivability,2008:102-134.
[1]Schiller J H, Voisard A. Location-Based Services [C]. San Francisco: Morgan Kaufmann,2004
[2]Jiang B, Yao X. Location-based services and GIS in perspective [C]. Computers,Environment and Urban System, 2006, 30(6): 712-725[3]王惠南编著.GPS导航原理与应用[M].科学出版社,2003
[3]C.Drane, M.Vfacnaughtan and C.Scott. Positioning GSM Telephones [J], IEEE Comm.Magazine, pp.46-59, 1998[4]R.Klukas, G.Lachapeile and M.Fattouche. Cellular Telephone Positioning Using GPS TimeSynchronization [C], GPS World, pp.49-54 1998
[4]Christie J, Fuller R, Nichols J. Development and deployment of GPS wireless devices forE911 and location based services. Position Location and Navigation Symposium [C], 2002, 60 - 65
[5]胡加艳,陈秀万,吴雨航,吴才聪.移动位置服务在应急救援中的应用[J].中国应急救援.2008(05)
[6]冯锦海,杨连贺,刘军发等.基于WLAN移动定位的个性化商品信总推荐平台[J].计算机工程与科学.2014(10)
[7]张寅宝,张威巍,孙卫新.面向位置服务的室内空间数据模型研宂[J].测绘与空间地理信息.2014(11)
[8]ZhongLiang Deng, Weizheng Ren, Lianming Xu. Localization Algorithm Based onDifference Estimation for Wireless Sensor Networks in Pervasive Computing Environment.Pervasive Computing and Applications [C], 2008, p.479-484.
[9]Stoyanova T, Kerasiotis F, Efstathiou K. Modeling of the RSS Uncertainty for RSS-BasedOutdoor Localization and Tracking Applications in Wireless Sensor Networks. Sensor Technologiesand Applications (SENSORCOMM) [C], 2010, 45 - 50
[10]Jun-yong Yoon, Jae-Wan Kim, Won-Hee Lee. A TDoA-Based Localization Using PreciseTime-Synchronization. Advanced Communication Technology (ICACT) [C]3
[11]韩霜,罗海勇,陈颖等.基于TDOA的超声波室内定位系统的设计与实现[J].传感技术学报.2010(03)
[12]Hee-Joong Kim, Jihong Lee. Stereo AoA system for indoor SLAM [C]. Control,Automation and Systems (TCCAS), 2013 13th, 1164-1169
[13]张明华.基于WLAN的室内定位技术研究[D],上海,上海交通大学,2009,36-38
[14]Weston J L, Titterton D H. Modern Tnertial Navigation Technology and Its Application [J].Electronics & Communication Engineering Journal, 2000, 12(2):49-64
[15] A.Taheri, A.Singh, A.Emmanuel. Location Fingerprinting on Infrastructure 802.11Wireless Local Area Networks (WLANS) Using Locus [C], Local Computer Networks, 2004. 29thAnnual IEEE International Conference on. IEEE, 2004, pp. 676-683.
[16]王赛伟,徐玉滨,邓志安等.基于概率分布的室内定位算法研究[C].国际信息技与应用论坛文集,2009.
[17]宁静.采用红外织网的室内定位技术[J].激光与红外.2011(07)
[18]卜英勇,王纪婵,赵海鸣等.基于单片机的高精度超声波测距系统[J].仪表技术与传感器.2007(03)
[19]HyungSoo Lim, ByoungSuk Choi, JangMyung Lee. An Efficient Localization Algorithmfor Mobile Robots based on RFID System [C]. SICE-ICCAS,Oct. 2006 pp. 5945-5950
[20]N4air N, Mahmoud Q.H. A collaborative Bluetooth-Based Approach to Localization ofMobile Devices [C]. Collaborative Computing: Networking, Applications and Worksharing(CoIlaborateCom), 2012,363 - 371
[21]Si nan Gezici, Zhi Tian, Georgios B. Biannakis, et al. Localization via Ultra-WidebandRadios [C]. IEEE Signal Processing Magazine July 2005.
[22]陈文周.WiFi技术研究及应用[J].数据通信.2008(02)
[23]李红,郭大群.WiFi技术的优势与发展前景分析[J],电脑知识与技术,2013(5)
[24]石欣,印爱民,张琦.基于K最近邻分类的无线传感器网络定位算法[J].仪器仪表学报,2014(10)
[25]Christopher J.C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition[J]. Data Mining and Knowledge Discovery. 1998 (2)
[26]Asano S,Wakuda Y’ Koshizuka N. A robust Pedestrian Dead-Reckoning PositioningBased on Pedestrian Behavior and Sensor Validity [C]. PLANS’ 2012,328 - 333
[27]Alvarez D, Gonzalez R.C, Alvarez J.C. Comparison of Step Length Estimators fromWearable Accelerometer Devices [C]. Proc.IEEE EMBS, 2006:5964-5967.
[28]刘长征,李纬,丁辰等.多种定位技术融合构建LBS体系[J].地理信息世界.2003(03)
[29]张世.基于惯性传感器和WiFi的室内定位系统的设计与实现[D],北京,北京邮电大学,2012.
[30]周傲英,杨彬,金澈清等.基于位置的服务:架构与进展[J].计算机学报.2011(07)
[31 ] W3C, Scalable Vector Graphics (SVG) [OL],
[32] Eisa S, Peixoto J. Meneses F. Removing Useless APs and Fingerprints from WiFi IndoorPositioning Radio Maps [C]. Indoor Positioning and Indoor Navigation (IPIN), 2013, 1-7