語法解析是自然語言處理的一個重要環(huán)節(jié),其目的是根據(jù)一定的語法規(guī)則,分析句予的語法結構,并給出句子的結構表達(通常是語法樹)。一方面涉及句子語法在計算機中的表達與存儲方法,和語料數(shù)據(jù)集,另一方面涉及語法解析的算法。
對于句子語法的表達,一般的做法是將句子中的名詞、動詞、介詞等用樹狀結構圖表達出來,而成熟的、手工標注的語料數(shù)據(jù)集在互聯(lián)網(wǎng)上也可以找到。
用于語法解析的算法主要有上下文無關語法(Context-Free Grammer,CFG)、概率分布的上下文無關語法(Probabilistic Context-Free Grammar,PCFG)。
CFG可以很容易的推導出一個句子的語法結構,但是缺點是推導出的結構可能存在二義性,例如,同一個單詞不同詞性的含義不同,連續(xù)的名字,以及介詞短語范圍等等。解決二義性的問題,通常使用PCFG從多種可能的語法樹中找出最可能的那種。