anu语言怎么报道?
Anu的语法和词法非常复杂(这从它难学程度就能看出来),并且至今没有写完,所以并没有一套完整的语法书或者大纲能完全讲解全部语法。因此只能采用分而治之的方法,讲其中一块块的语法。
在介绍具体语法前,需要先介绍一个概念——句切分(Sentence Boundary Detection),即判断一个句子是否结束的算法。 句切分是自然语言处理中的一个经典问题,其研究对象是文本中包含的所有可能的句子。为了简单起见,不考虑多句重叠的情况以及英文中的空格。
对于任何一个给定的前缀,我们可以通过一种基于最大熵的模型,以一定的概率来表示其是否是句子末尾的现象。这样我们就得到了一个“句切分”函数,利用这个函数我们就可以把一句超长度的文本切分成一个个的句子。
但是,这种切分方法存在以下的问题: (1) 没有考虑不同句子之间的语义差别的现象; (2) 没有考虑同义词、形变词等带来的词序变化现象。 为了解决上述问题,我们引入了另一概念——词性标记(Part-of-Speech Tagging),即给出单个词语的名词、动词等等的标签。这样我们就能够利用标注好的数据,对上文提到的“句切分”函数进行修正,得到更加精确的“句切分”函数。
随着词汇标注数据的规模越来越大,我们通过迭代的方式对句切分函数不断进行调整,最终达到一个最优的状态,此时得到的函数就能够相当精确地切分出句子,并且具有很高的效率。 在完成句切分之后,我们接着要解决的是词性标注问题。词性标签通常有POS、CHINESE_TAIGE等类型。 词性标注的任务就是给句子中每一个词语标注相应的词性标签。如同句切分一样,词性标注也是一个NLP中的经典问题。同样以简单的英文为例,一个英语句子可能具有的词性种类数就高达数百种。
尽管词性标注问题的研究已经有很多,但是在真实的数据上进行检测时仍然会碰到很多问题。比如,中文词语拼写规范等问题都是值得深入研究的难题。 以上介绍了关于句切分与词性标注的基本概念,接下来介绍一下用这些技术来进行新闻文本分析的具体步骤。这里仍以新闻中的一句话“特朗普称很高兴在‘最糟的交易’上达成协议”为例。
第一步,对文本进行句切分,得到字符串{'他','说','很','高','兴'} 第二步,为每个子句标注相应的词性,得到字符串{'他/主动语态主谓短语','说/及物动词谓语动词','很/副词状语修饰后置定语','高/偏正式合成词宾语','兴/动宾结构补语'} 最后一步,根据第一步中得到的句切分结果,自动构造第二部中的词性标签,这样就完成了对这句话的分析。