刚刚有看到@南荒月 sama的留言,很希望可以进一步改进机翻的质量。
但是好遗憾还没有想到能够大幅提升翻译质量的方法。如果可以想到方法的话,我想实现应该并不是问题呢。
现在,VNR可以获得如下的信息。我想,日文分词也许会是进一步帮助改进机翻的质量的关键,但是丝毫没有思路该如何做才好呢。
好想和大家讨论下呢。不知道大家有什么建议呢?什么样的想法都成,天马星空,胡思乱想也好呢。很多好的idea都是在讨论中产生的呢。
- 提取日文的原文
- 通过正则表达式断句
- 通过MeCab和微软日文输入法对日文分词
- 通过MeCab获得每个日文单词词性和形态 ← 这个也许是关键?可是该如何做呢?
- 通过EDICT和EPWING获得日文单词的含义
- 通过共享辞书获得人物的姓名
- 通过机翻对文本片段进行翻译
如果MeCab不够准确,还可以使用yahoo日文分词的在线api。
也许,举个例子会更直观些?
日文:「憎しみは憎しみしか生まない」 ←以前看CANAAN时不知为什么对这句话记忆深刻><
* 百度全文翻译:恨憎恶以外不生
* MeCab用ipadic辞书分词:
憎しみ 名词,一般,*,*,*,*,憎しみ,ニクシミ,ニクシミ
は 助词,系助词,*,*,*,*,は,ハ,ワ
憎しみ 名词,一般,*,*,*,*,憎しみ,ニクシミ,ニクシミ
しか 助词,系助词,*,*,*,*,しか,シカ,シカ
生ま 动词,自立,*,*,五段・マ行,未然形,生む,ウマ,ウマ
ない 助动词,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
* 小学馆EPWING辞书的翻译:
憎しみ: 憎恶,憎恨
生む:生,产,下,产出,产生
* 共享辞书
那么,给定如上这些输入的信息,要通过如何的操作,才可以输出好像【仇恨只会产出更多仇恨】这样的很地道的中文翻译呢?
但是好遗憾还没有想到能够大幅提升翻译质量的方法。如果可以想到方法的话,我想实现应该并不是问题呢。
现在,VNR可以获得如下的信息。我想,日文分词也许会是进一步帮助改进机翻的质量的关键,但是丝毫没有思路该如何做才好呢。
好想和大家讨论下呢。不知道大家有什么建议呢?什么样的想法都成,天马星空,胡思乱想也好呢。很多好的idea都是在讨论中产生的呢。
- 提取日文的原文
- 通过正则表达式断句
- 通过MeCab和微软日文输入法对日文分词
- 通过MeCab获得每个日文单词词性和形态 ← 这个也许是关键?可是该如何做呢?
- 通过EDICT和EPWING获得日文单词的含义
- 通过共享辞书获得人物的姓名
- 通过机翻对文本片段进行翻译
如果MeCab不够准确,还可以使用yahoo日文分词的在线api。
也许,举个例子会更直观些?
日文:「憎しみは憎しみしか生まない」 ←以前看CANAAN时不知为什么对这句话记忆深刻><
* 百度全文翻译:恨憎恶以外不生
* MeCab用ipadic辞书分词:
憎しみ 名词,一般,*,*,*,*,憎しみ,ニクシミ,ニクシミ
は 助词,系助词,*,*,*,*,は,ハ,ワ
憎しみ 名词,一般,*,*,*,*,憎しみ,ニクシミ,ニクシミ
しか 助词,系助词,*,*,*,*,しか,シカ,シカ
生ま 动词,自立,*,*,五段・マ行,未然形,生む,ウマ,ウマ
ない 助动词,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
* 小学馆EPWING辞书的翻译:
憎しみ: 憎恶,憎恨
生む:生,产,下,产出,产生
* 共享辞书
那么,给定如上这些输入的信息,要通过如何的操作,才可以输出好像【仇恨只会产出更多仇恨】这样的很地道的中文翻译呢?