2005-09 / 2005-09-18

前のエントリ: 先頭の1文字を消す [c]
次のエントリ: 購読設定の保存 [wanderlust]

spamassassin Bayesianフィルタ 設定
2005-09-18-1 / カテゴリ: [linux][debian][メール] / [permlink]

[2005-09-14-1]の続き。
USAGE の通りに
      spamassassin -t < sample-nonspam.txt > nonspam.out
      spamassassin -t < sample-spam.txt > spam.out
を一般ユーザで実行すると、~/.spamassassin 以下に
bayes_seen: Berkeley DB (Hash, version 8, native byte-order)
bayes_toks: Berkeley DB (Hash, version 8, native byte-order)
2つのファイルができた。
どうやら、デフォルトで bayesian フィルタを使うようになっているようだ。設定項目のリストおよびデフォルト値は
$ perldoc Mail::SpamAssassin::Conf
で見れる。

で、とりあえず、手元の spam さんたちを spam 扱いとして DB に突っ込む。
$ sa-learn --spam ~/Maildir/.Junk/cur
負荷と時間名はそれなりにかかる…(約2000通のメールで20分ほど)
更新された DB ファイルは
-rw-------  1 zaki zaki  176128 2005-09-18 18:17 bayes_seen
-rw-------  1 zaki zaki 5242880 2005-09-18 18:17 bayes_toks
こんなサイズ。
ディレクトリでなく、ファイル指定も OK みたい。

逆に、非 spam メールは --ham 指定で sa-learn を実行
$ sa-learn --ham ~/Maildir/.Friend/cur

とりあえず、これだけセットして、.procmailrc で fetch と同時にフィルタリングするよう設定
 :0 fw
 | /usr/bin/spamassassin
 
 :0 :
 * ^X-Spam-Status: Yes
 $HOME/Maildir/.Spam/
f はパイプ(|)をフィルタとみなし、w はフィルタが異常終了した場合はフィルタに渡す前の状態にする、と(man fetchmailrc)

でもって、ケータイから1通メールを送ってみると、ヘッダにちゃんとチェック結果が追記されていた。
X-Spam-Checker-Version: SpamAssassin 3.0.3 (2005-04-27) on cheddar
X-Spam-Level: *
X-Spam-Status: No, score=1.4 required=7.0 tests=AWL,BAYES_50,NO_REAL_NAME,
	PRIORITY_NO_NAME autolearn=no version=3.0.3
ふーん、、、



で、セット後数時間経過したら、ちょーど spam がキタ
X-Spam-Flag: YES
X-Spam-Checker-Version: SpamAssassin 3.0.3 (2005-04-27) on cheddar
X-Spam-Level: ****************
X-Spam-Status: Yes, score=16.8 required=7.0 tests=BAYES_99,NO_REAL_NAME,
	RCVD_IN_SBL,SUBJ_ILLEGAL_CHARS,URIBL_AB_SURBL,URIBL_OB_SURBL,
	URIBL_SBL,URIBL_SC_SURBL,URIBL_WS_SURBL autolearn=spam version=3.0.3
X-Spam-Report: 
	*  0.0 NO_REAL_NAME From: does not include a real name
	*  2.9 SUBJ_ILLEGAL_CHARS Subject contains too many raw illegal characters
	*  3.5 BAYES_99 BODY: Bayesian spam probability is 99 to 100%
	*      [score: 1.0000]
	*  0.1 RCVD_IN_SBL RBL: Received via a relay in Spamhaus SBL
	*      [220.230.107.120 listed in sbl-xbl.spamhaus.org]
	*  1.0 URIBL_SBL Contains an URL listed in the SBL blocklist
	*      [URIs: lovinyou.net]
	*  0.4 URIBL_AB_SURBL Contains an URL listed in the AB SURBL blocklist
	*      [URIs: lovinyou.net]
	*  1.5 URIBL_WS_SURBL Contains an URL listed in the WS SURBL blocklist
	*      [URIs: lovinyou.net]
	*  3.2 URIBL_OB_SURBL Contains an URL listed in the OB SURBL blocklist
	*      [URIs: lovinyou.net]
	*  4.3 URIBL_SC_SURBL Contains an URL listed in the SC SURBL blocklist
	*      [URIs: lovinyou.net]
おー
BAYES_99 がベイジアンフィルタでのチェック結果ぽいな。
これから spam くるのが楽しみだ(本末転倒)

しっかし、結果として spam 認定したときのプロセスの実行がすげー重い… 十数秒はかかる。やっぱチューニング必要なのかなぁ…



設定リストメモ
http://spamassassin.apache.org/tests_3_0_x.html
前のエントリ: 先頭の1文字を消す [c]
次のエントリ: 購読設定の保存 [wanderlust]

2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

最終更新時間: 2013-05-02 16:12