在https://superuser.com/a/1598832/109367之后使用文本文件,例如故事的单词文件,可以生成所有不同单词的列表。
然而,这还不是一个原始形式的词——对于动词(例如go),有动名词、变位、第三人称单数动词(going、goes、god、gone);名词(如apple)有复数形式(apples)。
我怎样才能得到一个单词的原始形式?这样我就可以获得一本书的词汇表等。
更好的是,如果这个解决方案不仅适用于英语,还适用于法语等。
在https://superuser.com/a/1598832/109367之后使用文本文件,例如故事的单词文件,可以生成所有不同单词的列表。
然而,这还不是一个原始形式的词——对于动词(例如go),有动名词、变位、第三人称单数动词(going、goes、god、gone);名词(如apple)有复数形式(apples)。
我怎样才能得到一个单词的原始形式?这样我就可以获得一本书的词汇表等。
更好的是,如果这个解决方案不仅适用于英语,还适用于法语等。
(这不是真正的答案,但我将其发布为答案,因为它不会让我发表评论)
两种语言之间没有一一对应的单词——无论是在含义上,还是在单词改变其形式的方式上。许多语言是高度屈折变化的,语法形态不适用于其他语言。所以你想完成什么,这不是列出清单的问题,它需要学习和理解语言。
您还没有指定您使用的平台,但您正在寻找的是一个词干算法。这需要变形词并将它们简化为一个共同的词干/词根。
大多数自然语言处理 (NLP) 库都包含可行的词干提取算法。
以下是一些可能有帮助的链接:
corpus
对于R)nltk
用于 Python)