在自然语言处理的领域内有乐观与悲观的周期性存在(我们现在大概是出于乐观期);虽然(技术上)真的有一些进步,但是达到一个全面自然语言处理系统的目标仍然遥不可及。(这里我没有用elusive的直译,难以捉摸,因为放进中文里会很怪,没有人说目标难以捉摸。)历史上,计算机专家有时对于自然语言处理(的挑战性)过于乐观,其原因很可能就是以上提到的(周期性)。因此从一开始就清楚这个(自然语言处理)的难度的原因是很重要的。同时,了解自然语言之间的不同也是很重要的一点。相对于其他自然语言来说,更多的研究重点放在了英文上,主要是因为美国研究者(在这个领域里)的重要性,尽管日本和欧洲也有很积极的研究学者。可是,在某一方面来讲,英文不是一个具有代表性的语言:它没有音调变化,并且严重依赖单词顺序。教课书和其他英文版的(自然语言处理)启蒙书籍几乎没有包括任何有关(与英语有)不同语法结构的语言的自然语言处理的合适论述。我们可以区别起码三个完全不同的自然语言处理级别:声音语法语义每一个都可以被再分为两到三个亚级别,但这不是本文的重点。在这个简介里我想要做的是阐明在处理每个级别中会遇到的一些问题。这里有以英文为母语的南英格兰人说的三个词:输入,纳入,收入(input, intake, income);(请大家)思考这三个词。很显然的,三个词都有相同语义的元素。输入,指的是把什么东西放进去;抽水机的纳入指的是水被抽进去的地方,你的收入指的是你赚的钱(就是进你口袋的钱)。三个词中的in元素(在指定说话人的情况下)都发一样的音吗?如果注意听的话就会发现并不是这样。Input 这个词在发音的时候听起来像是拼法是imput的词,而intake听起来就和它的拼法一样。 如果我们用N代表English 里边ng的发音,那么Income就有点iNcome的感觉。我特地点出了说话者是从南英格兰来的本土人,因为很多苏格兰人说英文的时候都没有这种习惯,就像所有其他英文母语者在慢慢地富有感情的说这三个词的时候一样,他们都会将in的发音发成和它拼法一样。有趣的是,不论在他们自己或是其他人的言语中,以英文为母语者通常都不会注意到这些差别。这不是因为他们没办法分辨m ,n ,N 这三种发音。Rum, Run, Rung这三个词就只有m, n, N这三个发音处不同而已,所有英文母语者都可以很好的区别它们。