株式会社エアー  

暗号化ライブラリ WISE Encrypt :リファレンス


WISE Encrypt ロゴ お見積り/お問い合わせ
製品詳細資料ダウンロード

日本語全文検索とソートが可能な暗号化ライブラリの概要  



 近年、情報共有の利便性、初期投資の経済性、災害対策などの観点からクラウドサービスを利用する企業が増えてきました。それにともないセキュリティ、個人情報保護のためのガイドラインや法的規制を考える国も増えてきました。 
パブリッククラウドについての多くのガイドラインでは重要なデータ(Sensitive Data)は自社管理下に置くか、自国内に設置されたクラウドサーバーを利用し、データをクラウドアプリケーションに渡す前に暗号化することを推奨しています。社内に置いたデータベースを保護するだけであれば、AES等の暗号化ツールが使用できますが、データをパブリッククラウドのサーバーに置き、利用者が外部から高速に検索できる暗号化方式で、日本語の処理に満足できる製品はまだ実用化されていません。

暗号化ライブラリ『 WISE Encrypt 』を使用すると暗号化した文字フィールド(日本語の文字列や文章を含む)を復号しないで全文検索(部分一致)と、ソートの対象とすることができます。クラウドアプリケーションに手を加える必要がないことも大きな特徴です。

1.暗号化ライブラリ『 WISE Encrypt 』の特徴

アプリケーション開発時に検索インデックスを含めて設計すれば暗号化したまま全文検索を行うことは可能ですが、既存のSaaSタイプの営業支援、顧客管理アプリケーションを使う場合、利用者側だけで暗号化に対処することは不可能です。また暗号化対応していてもそのクラウドサーバーの設置場所や運用体制が信頼できるかどうかの判断が困難な場合もあります。暗号化ライブラリ『 WISE Encrypt 』を使用すると既存のアプリケーションソフトのロジックやデータベーススキーマを変更せずに、利用者側でサーバーに格納するデータの暗号化と復号ができます。

利用者側で暗号化したデータベースフィールドにアクセスキーでダイレクトにアクセスすることはそれほど難しいことはありませんが、検索キーとフィールドの値が完全一致する必要があります。暗号化した文字列フィールドを復号せずに、全文検索(部分一致検索)の対象とすることは日本語の場合には容易ではありません。英仏獨語のように空白や句読点を区切り文字とした分かち書きの言語では簡単に単語を取りだせますので、単語ごとに暗号化して元の単語と置き換える方法があります。参考URL [1][2]はその方式による海外の製品です。
日本語では分かち書きをしないので簡単に単語の抽出を行うことができませんので、日本語の翻訳や一部の全文検索では辞書を参照しながら形態素解析で単語の抽出を行っています。しかし、たとえば「東京都庁」という文字列から抽出できる意味のある単語は「東京」「東京都」「京都」「都庁」「東京都庁」があります。それらの単語をすべて暗号化し、検索用インデックスを作ると元のデータの何倍もの大きさになり、検索後復号化して元のデータ(平文)を得るためには検索用インデックスとは別に元データも持つ必要があります。また、アプリケーションプログラムの検索方法を大幅に変更する必要があります。

暗号化ライブラリ『 WISE Encrypt 』の特徴はデータサイズの増加率をコントロールしながら、暗号化したフィールド(日本語の文字列や文章を含む)に対する全文検索(部分一致)を可能にし、さらにソート対象にもできることにあります。上の例ではアプリケーションプログラムに手を加えることなく、5つの単語「東京」「東京都」「京都」「都庁」「東京都庁」のいずれを検索キーとしても正しくヒットします。元のデータにはマルチバイトの日本語の他に、シングルバイト文字の英数字、記号が混じっていても差し支えありません。

参考
[1] Navajo Systems
  The Technology behind Virtual Private SaaS
[2] CipherCloud
  CipherCloud Architecture


次の章 具体的な例を使って、
暗号化ライブラリ『 WISE Encrypt 』を2つの視点から説明します。


ページのTOPへ▲

|