概要
Spark SQL に接続する方法について説明します。
検証環境
製品 | バージョン | 備考 |
---|---|---|
TDV Server |
8.5.5 |
CentOS7環境で実行 |
TDV Studo |
8.5.5 |
Windows Server 2019環境で実行 |
Amazon EMR |
6.10 |
Sparkクラスターとして利用 |
前提
本記事における手順は以下を前提とします。
- Amazon EMRクラスターはデフォルト設定で利用
- 接続対象となるデータベース(
test1
)およびテーブル(items
、orders
、stores
)は事前に作成済み- 本記事ではHDFS上のCSVファイルを入力とするテーブルを作成
オプション)Spark Thrift サーバー起動
Amazon EMRクラスターで Spark Thrift Server が起動していない場合は、以下のコマンドを実行して起動しておく必要があります。
sudo /usr/lib/spark/sbin/start-thriftserver.sh
接続先データソース
以下の items
、orders
、stores
テーブルに接続します。
上図はデータベースクライアントツールであるDBeaverから接続し、テーブル一覧を表示したものです。
TDVデータソース設定
SparkSQLアダプタを利用するデータソースを作成し、以下の項目をセットします。
また、接続テストを行い、正常に接続できることを確認します。
項目 | 内容 |
---|---|
Server | Spark SQL をホストするサーバーのホスト名もしくはIPアドレス |
Port | Spark SQL インスタンスに接続するためのポート |
イントロスペクト
リソースの追加/削除… をクリックし、イントロスペクトを行います。
動作確認
イントロスペクトした結果取得されたリソースの動作確認を行います。
3件のテーブルをJOINするビューを作成し、実行します。
Spark History Server UI で実行された処理を確認できます。