「漢字→かな」変換システム「ゆみここ」 on JAVA
表示まで約10秒お待ちください。Internet ExplorerおよびNetscapeで動作確認しています。 JAVAの更新
●「ゆみここ」の特徴
- 携帯端末などを視野に入れ、容量の観点から最小限の熟語辞書と単漢字情報のみで
その漢字の読みを推測することによりデータベース容量を激減させることに成功しました。(約100Kバイト)
- 固有名詞を除けば「ゆみここ」変換能力は98%程度と一般的な漢字かな変換システムと同等の能力があります。
●「ゆみここ」のアルゴリズム
- 最優先で熟語辞書に登録してある熟語で変換します。
- 漢字の後に漢字が続く場合は音読みが優先されます。
- 漢字の後に特定の平仮名(送りがな)がくる場合は訓読みになります。
- 「々」がくると直前の漢字に置き換えて変換します。
- 第二水準の漢字は使用頻度の高い60%に対応しています。
- 仮名に変換できない漢字は、そのまま出力します。
●「漢字仮名混じり文から仮名文への変換」の一般的な課題
- 固有名詞
辞書の登録語の大半を占めるのは固有名詞や人名地名です。
市町村レベルの地名で約5000種類、その下の地名や苗字まで加えると約12万種類になります。
さらに、名前を加えると把握することすら不可能なくらいの種類に達します。
最近は、子供に独特の名前をつける人が増えているので、この傾向に拍車がかかっています。
- 辞書のサイズ
「漢字かな」変換は「かな漢字」変換と同様に辞書の大きさによって変換できる精度が変わってきます。
「かな漢字」変換の場合、辞書の登録数がある一定の量に達するまでは変換効率が上がりますが、
それを超えると逆に精度が悪化します。なぜならば、同音異義語が増えることによって誤変換を引き起こすからです。
同じことが「漢字かな」変換にも言え、同字異音異義語が増えると誤った読みをする確率も上がります。
理想的には、文章にあわせて必要な辞書を変えていくことが解決策となります。
- 文脈による意味解析
形態素解析を行い、品詞の区別や掛かり受けなどの用例によって、その文脈にふさわしい候補を絞ることが出来ます。
ただし、膨大な用例を収集しなくてはならず、新聞や雑誌、手紙などさまざまなシチュエーションから
数多くの筆者や話者の用例を集めて、最大公倍数的なコーパスを構築する必要があります。
|