[リストへもどる]
一括表示
タイトル裁判所判例Watch取得できなくなりました
記事No3492
投稿日: 2011/09/24(Sat) 15:13
投稿者ganges
"裁判所判例Watch"の判決情報と判決文等へのリンクを掲示板巡回機能で
取り込んでいましたが、8月の盆休み前後にサーバーが変更されてから、
全く取り込めなくなりました。
ソースも見てBBXを作り直し、文字コードもUTF-8に変更になっていたので、
「Delegateを文字コード変換プロキシとして使用する」方法(#3133)に
変更しましたが、全く取り込めません。

どなたか、見て戴けないでしょうか。

// 裁判所判例watch用bbx
// http://kanz.jp/hanrei/search/ip/?k=1&o=0

[Index]
InxPrevUrlStartStr={前のページ&nbsp;|&nbsp;<A\s\nhref="} or {前のページ</a>&nbsp;|&nbsp;<A\s\nhref="}
InxPrevUrlEndStr=">次のページ

InxGroupStartStr=<tbody>
InxGroupEndStr=</tbody>

InxStartStr=<tr>
InxEndStr=</tr>

InxArtNoStartStr=detail/
InxArtNoEndStr=/">

InxArtUrlStartStr={col3_hl><A\shref="} or {col3><A\shref="} or {col3_hl"><a\shref="} or {col3"><a\shref="}
InxArtUrlEndStr=">

InxSubjectStartStr=class="category_name">
InxSubjectEndStr=&nbsp;&nbsp;

[Info]
CodeType=3
EnterType=3

ArtStartStr=<title>
ArtEndStr=<p\sclass="history_back">

BodyStartStr=summary="判決情報" class="detail" cellspacing="0">
BodyEndStr=<<$>>

SenderNameStartStr=裁判所</th>
SenderNameEndStr=</td></tr>

DateStartStr=裁判年月日</th>
DateEndStr=</td></tr>

DateYearPos=10
DateMonthPos=1
DateDayPos=2
DateHourPos=10
DateMinutePos=10
DateSecondPos=10

Tag1ForNewLine=</tr>
Tag2ForNewLine=

LeaveHtmlLinkInBody=1

タイトルRe: 裁判所判例Watch取得できなくなりました
記事No3502
投稿日: 2011/10/13(Thu) 22:57
投稿者ganges
コメントありがとうございます。

遅いレスで済みません。
ご指摘の点は、
「年のデータを取得しない=全て当年の日付として処理される」
という処理なので、問題ないはずです。

現状、種々確認して、その結果、
リンク先の読み込みができていないことが判っています。
delegateもかましていますし、
URLの切り出しが間違っているとは思えないのですが、
何が問題なのでしょうか。

タイトルRe^2: 裁判所判例Watch取得できなくなりました
記事No3504
投稿日: 2011/10/16(Sun) 23:17
投稿者通行人
前回は失礼しました。

No.3133の投稿でUTF-8が見事取り込めるようになり
感謝しております。

bbxを投稿すると迷惑投稿扱いになるので
レスを削除するとうまくいくかもと思ってやってみましたが
ダメだったのでそのままにしておりました。(今回も何度やってもダメです。
ダブルスラッシュを削除して再挑戦してみます。やはりダメでした。以下bbxを
削除して修正で投稿してみます。といっても直リンで一括表示だけですが。)

前回は自分では何もやらずにただbbxを見ただけで
弘法も筆の誤り、灯台元暗しで
DateYearPos=0とすべきところをうっかり
DateYearPos=10とされたのだと勝手に解釈しておりました。
実際に裁判所判例Watchを覗いてみてしまったと思いましたが
後の祭りです。

私の経験では以下のような場合は日付がうまく取り込めるようです。

DateStartStr=裁判年月日</th>23
DateEndStr=</td></tr>

DateYearPos=10
DateMonthPos=0
0から始めるようです
DateDayPos=1
DateHourPos=10
この項目まで少なくとも三項目あればYearPosは非設定でも年から取れるのですが・・
DateMinutePos=10
DateSecondPos=10

私も実は別のブログで同じような困難に直面しており
仕方なく記事直リンで一括表示で毎日ジコジコアクセスしております。

裁判所判例watch用bbx(一括表示)

[Info]
CodeType=3
EnterType=3

NoStartStr=事件番号</th>
NoEndStr=</td></tr>

ArtStartStr=<title>
ArtEndStr=<p\sclass="history_back">

BodyStartStr=summary="判決情報" class="detail" cellspacing="0">
BodyEndStr=<<$>>

SubjectStartStr=事件番号</th>
SubjectEndStr=</td></tr>

SenderNameStartStr=裁判所</th>
SenderNameEndStr=</td></tr>\n<tr><th scope="row" class="col1">事件種別</th>

DateStartStr=<p class="update_time">
DateEndStr=</p>

DateYearPos=0
DateMonthPos=1
DateDayPos=2
DateHourPos=3
DateMinutePos=4
DateSecondPos=10

Tag1ForNewLine=</tr>
Tag2ForNewLine=<tr><th scope="row" class="col1">事件名</th>

LeaveHtmlLinkInBody=1

詳細のアドレスを下から順々に張り付けなおすと
一通づつ取れるようです。

お役に立たず済みません。

タイトルRe: 裁判所判例Watch取得できなくなりました
記事No3505
投稿日: 2011/10/17(Mon) 23:36
投稿者ganges
通行人 様

色々とお試し頂き、ありがとうございます。
結論としては、「直リンするしかなさそう」ということですね。

その後、色々と試した結果、部分的にですが、
Indexページの判決番号だけ取り込めているようです。
漏れがないか、また、取り込めたものと、ダメなものの相違は何かを
これから検証します。
私が追いかけているのは知財判決だけで、それほど数はありません。
新規登録された判決番号だけでも巡回取得できたら、
判決の存在だけは判りますので、
取り敢えず、後は手動で取っていこうと思います。

ブログで同じような問題があるとのことですので、
こちらでも何か進展が見られたら、また、投稿します。

では。

タイトルRe^2: 裁判所判例Watch取得できなくなりました
記事No3506
投稿日: 2011/10/18(Tue) 04:16
投稿者通行人
ganges様

> ブログで同じような問題があるとのことですので、
> こちらでも何か進展が見られたら、また、投稿します。

助かります。
よろしくお願いします。

タイトルRe^3: 裁判所判例Watch取得できなくなりました
記事No3521
投稿日: 2011/10/22(Sat) 12:33
投稿者ganges
通行人 さん

その後、“裁判所判例Watch”の必要な情報は、Indexページだけからとれることが
判りましたので、リンク先を読み込む方法の検討は打ち切ることにしました。
下記のBBXで取り込んでいます。
期待だけ持たせてごめんなさい。

しかし、不思議なのは、色々と試している間は、ページめくりもできていたのに、
下記の設定ではページめくりができないこと。
どのBBXまでページめくりができたのか、判らなくなったので、原因の検証は
不可能に近いです(爆)


// 裁判所判例watch用bbx(Indexページのみで取得)

[Info]
CodeType=3
EnterType=3

ArtStartStr=<tr>
ArtNotStartStr=<tr><th
ArtEndStr=</tr>

BodyStartStr=<<$>>
BodyNotStartStr=
BodyEndStr=<<$>>

SubjectStartStr=<<$>>
SubjectNotStartStr=
SubjectEndStr=</td>

SenderNameStartStr=日<br>
SenderNameNotStartStr=
SenderNameEndStr=</td>

SenderAdrStartStr=</td>
SenderAdrNotStartStr=
SenderAdrEndStr=<br>

DateStartStr=
DateEndStr=

DateYearPos=10
DateMonthPos=1
DateDayPos=2
DateHourPos=10
DateMinutePos=10
DateSecondPos=10

Tag1ForNewLine=</tr>
Tag2ForNewLine=

LeaveHtmlLinkInBody=1

NoStartStr=detail/
NoEndStr=/">

PrevUrlStartStr={前のページ&nbsp;|&nbsp;<a\s\nhref="} or {前のページ</a>&nbsp;|&nbsp;<a\s\nhref="} OR {前のページ</a>&nbsp;|&nbsp;<a\shref="} OR {前のページ&nbsp;|&nbsp;<a\shref="} or {前のページ</a>&nbsp;|&nbsp;<a\shref="} or {前のページ&nbsp;|&nbsp;<a href="}
PrevUrlEndStr="

MaxBackPageCount=4

NewItemOnAny=1

タイトルRe^4: 裁判所判例Watch取得できなくなりました
記事No3524
投稿日: 2011/10/23(Sun) 22:04
投稿者通行人
ganges様

ご連絡ありがとうございます。

なるほどうまく必要な情報が取れてますね。
"ページめくりもできていた"とのことですが、
不思議ですね。

私が困っているブログは、「続きを読む」ということになるので
試していなかったのですが、やってみると同じように取り込みは可能でした。
ただ「続きを読む」から跳ぶ必要があるのですが、ドメインを落として取ってしまうので
ひと手間かかります。メール編集可能にして、クリップボード管理ツールで
ドメインを貼り付けて跳ぶようにすると、ブラウザを立ち上げることができます。
切り貼りが必要ですが、直リンよりは少し作業が簡略化されるでしょうか。

また何か進展がありましたらよろしくお願いします。