首页 / 社会动态 / 正文
自然语言处理技术,自然语言处理相关技术,语言处理自然技术包括

Time:2025年04月21日 Read:3 评论:0 作者:haiwenboyue

甚至可以说,这个名单是无休无止的。

现在我们先来考虑一下语音。

人类作为一个物种,能够相互交流,这种交流远远超过了我们所需要进行的写作。我们必须承认,与写作相比,学会说话要简单很多。

语音和文字是我们进行相互交流的方式。

因为这种类型的数据很重要,所以我们得有办法去了解和理解自然语言,就如同我们对待其他类型的数据那样。

自然语言的挑战

使用自然语言数据所存在的问题还没有得到解决。

该领域的专家已经花费了半个多世纪的时间来对其进行研究。然而,必须得承认的是,它确实是很难的。

对于那些需要花费多年时间去学习以获得一门语言的孩子而言,这是困难的;对于学习语言的成年人来说,这是困难的;对于那些进行建模的科学家来说,这是困难的;对于那些尝试构建处理自然语言输入或输出系统的工程师来说,这同样是困难的。这些任务极为困难。图灵把能够用自然语言进行流畅交流当作他对智能测试的核心。

——2010年《数学语言学》,第248页

自然语言之所以难主要是因为它很混乱,几乎没有规则可循。

不过大部分的时间里我们而已很容易地彼此相互理解。

人类语言存在模糊性……它处于不断变化与演进之中。从古至今,人类在创造和理解语言方面颇具专长,能够表达、感知并解读极为精细和细微的含义。同时,尽管我们人类是语言使用的庞大群体,但在形式理解以及描述用于管理语言的规则方面仍有一定不足。

——2017年《自然语言处理中的神经网络方法》,第1页

从语言学到自然语言处理

语言学

语言学是对语言进行的科学研究,包括语法、语义学和语音学。

古典语言学与语言规则的设计及评估相关。在语法和语义学的形式方法方面,它取得了很大的进步。然而,在大多数情况下,自然语言理解中存在着诸多有趣的问题,这些问题遏制了清晰的数学形式。

从广义角度来讲,学习语言的任何人都可以被称为语言学家。不过更通俗一些来说,那些自称为语言学家的人,可能会更侧重于这个领域之外的其他领域。

数学是科学的工具。从事自然语言工作的数学家,他们可能把自己的研究称作数学语言学,并且仅仅专注于离散数学形式学的运用以及自然语言理论,比如形式语言和自动机理论。

计算语言学

计算语言学是利用计算机科学工具来开展的对语言学的现代研究。昨天的语言学有可能会成为今天的计算语言学家,因为计算机工具的运用以及思考方式的转变已经遍及了研究的大部分领域。

计算语言学主要是对能够理解和生成自然语言的计算机系统展开研究。其中一个本质性的功能便是对理论语言学家所提出的语法进行测试。

——1986年《计算语言学》导言,第4-5页

自然语言处理技术_自然语言处理相关技术_语言处理自然技术包括

大数据的发展意味着可以从大量文本数据集中发现新事物,计算机的发展也意味着可以通过编写和运行软件来实现这一点。

20 世纪 90 年代,统计方法和统计机器学习开始流行起来。它们最终取代了经典的自上而下的基于规则的语言方法。这主要是因为它们具有优良的结果、快捷的速度以及鲁棒性。现在,研究自然语言的统计方法在这一领域占据主导地位,并且能够定义这个领域。

现如今,数据驱动的自然语言处理方法很受欢迎,被认定为计算语言学的主流方法。可用电子存储数据的增加量是导致这一发展的一个强有力因素,为这些处理方法的应用提供了充足数据量。另一个因素可能是在看到现存方法的脆弱性后,意识到过分依赖手工制动规则,因为其具有观察到的脆性。

——2005年《牛津计算语言学手册》,第358页

自然语言的统计方法不仅仅局限于统计这一范畴,同时还涵盖了在应用机器学习过程中所使用的高级推理方法。

理解自然语言并非易事。这需要诸多方面的知识,包括形态学、语法、语义和语用学知识,还需要对世界有普遍的认识。获取并对所有这些知识进行编码,是开发具有良好有效性和鲁棒性的语言系统的根本障碍之一。像统计方法那样,机器学习方法也没有做到从带有注释或未注释的语言语料库中自动获取这种知识。

——2005年《牛津计算语言学手册》,第377页

统计自然语言处理

计算语言学被称作自然语言处理或者 NLP,目的是体现出统计方法更偏向于工程师或基于经验的方法性特点。

该领域具有统计优势,这常常使得 NLP 被描述为统计自然语言处理。或许这样做是为了将其与经典计算语言学方法区分开来。

我认为计算语言学兼具科学与工程学的特性。其中被称作工程学的这一面,通常被叫做自然语言处理(NLP),主要是构建计算工具,让语言能被用于做一些有用的事情,像机器翻译、总结、问答等。如同其他工程学科一样,自然语言处理涵盖了多种不同的科学学科。

——2009年《统计变革是如何改变(计算)语言学的》

语言学是一个研究课题,范围较大。NLP 的统计学方法在某些领域取得了很大的成功。然而,从传统的自上而下的方法角度来看,依然存在很大的空间,也能获得巨大的收益。

粗略地讲,统计 NLP 会把概率和在分析话语或文本时遇到的替代方案联系起来,并且把最有可能的结果当作正确的结果。……毫不奇怪的是,词语的名称现象在世界范围内都是紧密相关的,或者说我们对它的认知,在关于世界的事实反映在文本的一些模糊事实时,常常是相互接近的。这个观点存在很大的争议空间。

——2005年《牛津计算语言学手册》,第19页

自然语言处理

我们是对处理文本数据感兴趣的机器学习从业者,所以关注自然语言处理领域中的工具和方法。

在之前的内容里,我们已经见到了从语言学到 NLP 的那条路径。如今,我们来瞧一瞧现代的研究人员以及从业人员是怎样去定义 NLP 的所有相关内容的。

在这一领域顶尖研究人员所撰写的教科书中,他们把这个学科称作“语言科学”,并且允许对古典语言学以及现代统计学方法进行讨论。

语言科学的目的是能够对在对话、写作和其他媒体中围绕在我们周围的大量语言观察进行描述和解释。一部分与人类获取、产生和理解语言的认知范围相关,一部分与理解语言话语与世界的关系相关,一部分与了解用于沟通的语言结构相关。

——1999年《统计自然语言处理基础》,第3页

他们通过在自然语言处理中使用统计方法继续关注推理过程。

统计 NLP 的目的是对自然语言领域进行统计推理。统计推理一般包含这样的过程:先获取一些数据,这些数据是根据一些未知的概率分布生成的;接着对该概率分布进行一些推断。

自然语言处理相关技术_语言处理自然技术包括_自然语言处理技术

—— 1999年《统计自然语言处理基础》,第191页

在应用自然语言处理的文本里,作者把它广泛描述为使用计算机处理自然语言数据,同时 NLP 的知名 NLPK 库的贡献者也这么做。

我们会运用自然语言处理,也就是 NLP。它涵盖了对自然语言的各种计算机操作。一方面,它能够通过简单地计算单词频率来对不同的写作风格进行比较。另一方面,NLP 涉及对完整的人类言语的“理解”,至少在能够给出有效回应的程度上。

——2009《用进行自然语言处理》,第9页

统计 NLP 已转向新的角度,如今着重于运用深度学习神经网络去对特定任务进行推理,同时开发出强大的端对端系统。

Yoav 在第一本专门针对这一新兴主题的教科书中,把 NLP 简洁地定义为一种自动方法,这种方法将自然语言当作输入,或者生成自然语言当作输出。

自然语言处理(NLP)指的是对人类语言进行自动计算处理的统称。其中包含把人类创作的文本当作输入的算法,还有生成自然文本当作输出的算法。

——2017年《自然语言处理中的神经网络方法》,第17页

进一步阅读

如果你想更深入了解,本部分将提供有关该主题的更多资源。

图书:

《数学语言学》,2010,

《自然语言处理中的神经网络方法》,2017,

《计算语言学:导论》,1986,

《牛津计算语言学手册》,2005年,

《统计自然语言处理基础》,1999,

《用进行自然语言处理》,2009,

维基百科:

维基百科上的语言学,

维基百科上的计算语言学,

维基百科上的自然语言处理

维基百科上的自然语言处理史

维基百科上的自然语言处理概要

标签:
关于我们
海文博阅网,打造全方位的文化信息阅读平台,涵盖社会动态、历史人文、生活百科等广泛内容。我们为读者提供高质量的资讯和深度文章,让阅读成为获取知识、拓宽视野的桥梁。在这里,您可以随时随地畅游知识的海洋,感受阅读的魅力。
发文扫码联系站长微信
Copyright ©2021-2025 Comsenz Inc.Powered by©haiwenboyue 文章发布联系站长:dat818