2013年7月9日火曜日

MRJobのmapper/reducerに引数を渡す

Java版のHadoopとかだと、プログラムに環境変数的な値を渡すのはConfiguraitonクラスを色々駆使しなくてはいけなくて結構面倒くさい印象がありますが、MRJobの場合は以下のような書き方で、optparseチックに引数を渡すことができます。

たとえば"--date"というパラメータで日付情報を渡すようにする場合
    def configure_options(self):
        super(MR, self).configure_options()
        self.add_passthrough_option('--date', default=None)
のような形で"configure_options"メソッドを上書きし、add_passthrough_optionメソッドに定義を書いてあげると、各mapper、reducerの処理中から
date = self.options.date
のように参照できるようになります。

実行時は以下のような形
python hoge.py --date 2013-07-09 data/hoge.tsv


1 件のコメント:

  1. Casino, Hotel & Racing - Mapyro
    Welcome to the Casino, Hotel & Racing, featuring 15 restaurants, an outdoor pool and an outdoor pool. 영주 출장샵 A.E.I. Hotel 광명 출장마사지 & Racing, the 통영 출장마사지 home of the 화성 출장마사지 famous 밀양 출장마사지 TV show of the

    返信削除