概要
EBXには、重複するレコードを単一のレコードに寄せるMatch and Mergeと呼ばれる機能があります。本稿ではこのMatch and Mergeを有効にし、名寄せの設定を行う基本的な流れについて解説します。
名寄せの設定
テーブルに対するアドオンの設定
名寄せの設定を行うにあたり、まずどのデータモデルおよびテーブルに対し機能を使用するかの指定をします。
名寄せを行いたいデータを格納しているデータモデルの編集画面へ移動し、[構成]>[アドオン]にて[+]から新規アドオンの登録画面を開きます。
プルダウンメニューより、[Match and Merge]を選択し、画面下の[保存して閉じる]を押下します。
設定後、データモデルを公開し、データセットを作成します。
名寄せを行うテーブルの登録
管理メニューから、[データ品質と分析]>[TIBCO EBX Match and Merge Add-on]へ進みます。
[テーブルのアクティブ化と設定]にて、新規レコード[+]を追加します。
先にMatch and Merge add-onを有効にしたデータモデル、および名寄せを行いたいテーブルをプルダウンメニューから指定します。
(注:当該データモデルからデータセットの作成を行っていない場合、プルダウンメニューに当該データモデルは出現しません。)
画面下部の[保存]を押下すると、名寄せ設定の編集画面に切り替わります。
照合ポリシーの設定
[照合ポリシー]タブへ切り替え、[+]から新しい照合ポリシーの作成画面を開きます。
各項目を設定します。項目の説明については下表をご参照ください。
項目 |
説明 | |
照合ポリシーコード | 現在設定している照合ポリシーの名称を設定します。 | |
一致するテーブル | 照合ポリシーを適用するテーブルが表示されます。変更したい場合は、照合ポリシーの編集画面を一度閉じ、[メイン]タブより変更してください。 | |
アクティブ | この照合ポリシーを有効にするかを設定します。[いいえ]の場合、この照合ポリシーは名寄せの実行時に選択できなくなります。 | |
照合の実行 |
レコードの作成時および更新時に、この照合ポリシーを用いたデータのマッチングをどのタイミングで行うかを設定します。
|
|
削除の実行 |
マッチング後、メタデータセットに保存されたマッチング結果の削除方法を選択します。 |
|
マージポリシー |
マッチング実行時、マージまでを自動で行う場合に、どのマージポリシーを使用するかを設定します。手動でマージを行う場合、[未定義]に設定します。 |
設定後、[保存]を押下すると、上部にタブが出現します。ここから[デシジョンツリー]のタブへ移動します。
左側の[ツールボックス]から、各ノードを右画面にドラッグアンドドロップで配置し、下図のようなデシジョンツリーを作成します。[データ比較]ノードについては、配置後ダブルクリックで編集画面を開き、比較基準を詳細に設定します。設定項目は下表に示します。
項目 |
説明 | |
名称 | データ比較ノードの名称を設定します | |
比較関数 |
以下に定める各フィールドの比較結果に応じ、比較ノードとしてtrue/falseを返す基準を設定します。各比較関数に応じたパラメータは、比較関数選択後に設定します。
|
|
フィールド | 関係の使用 | 比較するフィールドが同一テーブル内のフィールドか、当該テーブルから外部キー等を使用して参照している別テーブルのフィールドかを選択します。外部キー等他のテーブルの値を参照する場合、[照合フィールド]タブにて事前の設定が必要です。(下記「別テーブルのフィールドをレコードの比較に使用する場合(任意)」参照) |
フィールド | 比較するフィールドを設定します。 | |
アルゴリズム |
フィールドを比較するアルゴリズムを決定します。日本語文字列で使用できるアルゴリズムは、下記のとおりです。
|
別テーブルのフィールドをレコードの比較に使用する場合(任意)
本機能では、名寄せを行うテーブルにおいて、外部キーやリンクテーブルで値を参照している別のテーブルについても、同一レコードの判定基準の対象とすることができます。
照合ポリシーの設定画面で[一致するフィールド]に切り替え、左上の[+]を押下します。
下記項目を設定します。項目の説明については下表をご参照ください。
項目 |
説明 | |
関係の使用 | 名寄せを行うテーブルから、値を参照している別テーブルへの参照方法を選択します。 | |
ロケーション |
上記の関係(外部キーまたはリンクテーブル)で参照されるテーブルが、どのデータセットにあるかを選択します。(ver6.1.1現在では、「同じデータセット」のみが選択可能です。) |
|
一致テーブル外部キー/関連テーブル外部キー |
上記関係で使用されている外部キーを指定します。 |
|
フィールド |
マッチングの過程において、値が同一であるかを判定したいフィールドを指定します。 |
|
レコードの除外 |
当該フィールドに特定の値が含まれる/含まれないといった場合や、nullである/ではない場合に、照合プロセスからレコードを除外することができます。この条件を設定します。 |
|
前処理 | 検索戦略 |
照合の前処理中に、類似のレコードをグループ化するために使用される検索戦略を設定します。選択したフィールドを含むデータモデルで定義された検索戦略のみが表示されます。 |
加重 |
照合の前処理中に、このフィールドに割り当てられる重みを指定します。この重みは、ディシジョンツリーで設定したスコアには影響しません。 |
|
null値管理 | 両方の値がnull |
照合時に突き合わせる二つのレコードについて、双方の当該フィールドの値が null の場合に、アドオンが一致スコアを計算する方法を決定します。「一致なし」に設定すると0%、「一致」に設定すると100%を返します。 |
値の1つがnull |
照合時に突き合わせる二つのレコードについて、一方の当該フィールドの値が null の場合に、アドオンが一致スコアを計算する方法を決定します。「一致なし」に設定すると0%、「一致」に設定すると100%を返します。 |
マージポリシーの設定
[マージポリシー]タブへ切り替え、[+]から新しいマージポリシーの作成画面を開きます。
各項目を設定します。項目の説明については下表をご参照ください。
項目 |
説明 | |
マージポリシーコード | 現在設定しているマージポリシーの名称を設定します。 | |
サバイバーシップ戦略 | レコード選択機能 |
マッチングの結果、複数のレコードが一致すると判定された際に、どのレコードをゴールデンレコードとして存続させるかのルールを定めます。 |
フィールドマージ機能 | ゴールデンレコードの各属性の値を、どのように決めるかのルールを定めます | |
新しいゴールデンの自動作成 | モード |
レコードのマージの際に、新たにゴールデンレコードを作成するかを定めます。この機能を有効にする場合([重複のみ]、[重複とシングルトン]のいずれかを選択)、マージを行うテーブルの主キーに自動採番ルールを設定する必要があります。
|
手動マージで使用 |
手動マージの際にこのポリシーを適用するかを設定します。 |
|
マージビューに権限を適用 |
([手動マージで使用]を[はい]にした場合にのみ設定) 手動マージ画面で、データ項目へのアクセス権を適用するかを設定します。[はい]の場合、非表示として権限設定されている項目は見えない状態でユーザーはマージを行います。 |
設定後[保存]を押下すると、下図のように[サバイバーフィールド]と[関連テーブル]のタブが出現します。必要に応じ、設定をお願いいたします。
- サバイバーフィールド
- 上記で設定したフィールドマージ機能を、属性ごとにさらに細かく定めたいときに使用します。
- 関連テーブル
- 外部キー等により、現在Match and Merge機能を設定しているテーブルが外部のテーブルから参照されている場合に、その外部テーブルにおけるレコードの扱いを定めます。
レプリケーションの設定(任意)
[レプリケーション]タブでは、Match and Merge機能を使用した際に生成されるメタデータセットを、レプリケーションDBに保存する設定を行うことができます。設定する場合は、[レプリケーション]タブから[+]を押下し、新規設定を作成してください。設定方法は通常のレプリケーションDBと同様です。(別記事参照)