Spark SQL への接続方法 – TIBCOサポート

概要

Spark SQL に接続する方法について説明します。

本記事における手順は以下を前提とします。

Amazon EMRクラスターはデフォルト設定で利用
接続対象となるデータベース（test1）およびテーブル(items、orders、stores)は事前に作成済み
- 本記事ではHDFS上のCSVファイルを入力とするテーブルを作成

Amazon EMRクラスターで Spark Thrift Server が起動していない場合は、以下のコマンドを実行して起動しておく必要があります。

sudo /usr/lib/spark/sbin/start-thriftserver.sh

以下の items、orders、storesテーブルに接続します。

上図はデータベースクライアントツールであるDBeaverから接続し、テーブル一覧を表示したものです。

SparkSQLアダプタを利用するデータソースを作成し、以下の項目をセットします。

また、接続テストを行い、正常に接続できることを確認します。

項目	内容
Server	Spark SQL をホストするサーバーのホスト名もしくはIPアドレス
Port	Spark SQL インスタンスに接続するためのポート

リソースの追加/削除… をクリックし、イントロスペクトを行います。

イントロスペクトした結果取得されたリソースの動作確認を行います。

3件のテーブルをJOINするビューを作成し、実行します。

Spark History Server UI で実行された処理を確認できます。