自然语言处理的若干问题
?
1.文本朗读(Text?to?speech)/语音合成(Speech?synthesis)
2.语音识别(Speech?recognition)
3.中文自动分词(Chinese?word?segmentation)
4.词性标注(Part-of-speech?tagging)
5.句法分析(Parsing)
6.自然语言生成(Natural?language?generation)
7.文本分类(Text?categorization)
8.信息检索(Information?retrieval)
9.信息抽取(Information?extraction)
10.文字校对(Text-proofing)
11.问答系统(Question?answering)
12.机器翻译(Machine?translation)
13.自动摘要(Automatic?summarization)
14.文字蕴涵(Textual?entailment)
1.?单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。
2.词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。
3.句法的模糊性
自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse?Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。
4.有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。
5.语言行为与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说?回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要?比回答“没人没通过”好。
<!--EndFragment-->