是很难,但是比自然语言处理的前二十年的进步已经好很多了,最近因为要研究人工智能自然语言处理方面的项目,所以一直在读有关的书籍,从数学的奥妙,统计学的理论、概率论等等。
读了这么多的书,其实我发现,很多东西靠的还是你对基础的扎实程度。自然语言处理的前20年为什么会这么难,或者说毫无进展,讲的通俗一点就是人类的惯性思维决定了你的认识事物的方法。
在前20年,科学家研究自然语言处理一直停留在或者说局限在人类学习语言的方式上,简单来说,就是用电脑去模仿人脑,当时大多数的科学家都认为要让机器去翻译或者语音识别,就需要让计算机去理解我们的语言,而要做到这一点,就需要计算机具有像人类一样的智慧,这就是人类认识的普遍规律,我们也不要去笑话他们,因为唯有如此的试错,才造就了今天的成就。
如今语音识别和翻译已经做得非常的好了,但是很多不在我们这种机器学习研究领域的人来说,还错误的认为语音识别和翻译是靠计算机理解了自然语言才实现的,其实际上是靠数学和统计学去实现的。
从规则到统计的进步是人类认识事物的一种突破,统计语言模型的建立,是当今自然语言处理的基础和关键,但是很多东西都会存在自己本身固有的缺陷,这是无法改变的。
语言模型中设计的数字关系、公式计算,N元模型的定位,为什么在马尔科夫假设中N的值会这么小,里面涉及到的知识太多,在这里也无法一一回答给你。我只是想说,单纯的自然语言处理已经没有像之前那么的毫无头绪了,现在已经比以前好的太多了。难,不是在于它的本身,而是在于它涉及的知识点实在太多。。。。