はーぶがーでん

RagnarokOnlineの内容がちょっと多いと
言い張る不定期日記
<< June 2017 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 >>
ハイプリ大地に立つ
PROFILE
お勧め品



ナチュラルミネラルウォーター (炭酸入り)
炭酸好きにお勧めです
サイト運営者の別サイト
LINKS1
CATEGORIES
ARCHIVES
RECENT COMMENTS
RECENT TRACKBACK


<< IT】「ソフトウェア開発の名著を読む」読了 | main | 山手線にホーム柵が出来る >>
スポンサーサイト

一定期間更新がないため広告を表示しています

| スポンサードリンク | - | - | - | このエントリーを含むはてなブックマーク
PC】Feedpath Rabbitからのデータエクスポート
Feedpath Rabbitに溜まっている未読リストを
エクスポ―トする手段が提供されていないので
簡単なツールを作ってみました

でも、サイトからのデータの取得自体は手動です
最終的なエクスポートデータはtsv形式です

データの取得は、
Feedpath Rabbitの環境設定で、
1ページの記事表示件数を100件にしてから行なうことをお勧めします

1)サイトからのデータの取得
Firefoxでは上手くいく事を確認してあります(他は未調査)

A)Firefoxだけを使う
B)Firefoxと紙というソフトを使う
の2通りあります。A)では15回ぐらいで嫌になります(未読1500って事)
B)はWindows限定です

紙copi

A)Firefoxだけを使う
赤点の位置にマウスを移動します
Feedpath Rabbitからのexportその1


Ctrl+A
Feedpath Rabbitからのexportその2

上記の様な画面になった所で
右クリックし、「選択した部分のソースを表示」を選択します
Feedpath Rabbitからのexportその3

新しいウインドが開きます
Feedpath Rabbitからのexportその4

ファイル→名前を付けてページを保存
Feedpath Rabbitからのexportその5
ファイルを保存します。
この作業を必要なだけ繰り返します

B)Firefoxと紙というソフトを使う
Firefoxだけを使う、と最初は同じです

赤点の位置にマウスを移動します
Feedpath Rabbitからのexportその1


Ctrl+A
Feedpath Rabbitからのexportその2

上記の様な画面になった所で
マウスを移動すると、紙が立ち上がりますので、紙にドロップします
Feedpath Rabbitからのexportその6
この作業を必要なだけ繰り返します

Feedpath Rabbitからのexportその7
なお、作成されたファイルの位置は、
右クリック→プロパティ
でファイルの有りかが判ります

2)ファイルからデータの抽出

コマンドプロンプトで、
ExportURI4Feedpath.pl ファイル > dump.tsv
って感じに実行すると

こんな感じのファイルが出来ます
Feedpath Rabbitからのexportその8
一番最後の行に出力した件数が表示されます

二回目以降は、必要なだけ
ExportURI4Feedpath.pl ファイル >> dump.tsv
と繰り返せばokです

3)データの確認
Excel等でdump.tsvを開いてチェックしてください
出力予定のデータ数と、ファイルの行数が大きく違った場合
どこかの作業が失敗しています

なお、
100件出力しました
という文章が一行以上出てくるので、その分データ数は増えます

作成したリストが納得行けば、作業は終了です

注意
1)実体参照はそのままにしてあります
2)稀にアドレスの取得に失敗する事があります

自分の作業では
3936件中 3件 アドレスの取得に失敗しました

抽出部分は使いまわしが利かないし、99.92%の成功率なので
これでokとしました。

この時は、タイトルをぐぐるなりしてアドレスを取得してください

ExportURI4Feedpath.plのコード
# Feedpath用

use strict;
use warnings;

use Encode::Guess;

if( $#ARGV != 0 )
    {
    print "Usase:??.pl file¥n";
    exit;
    }

while( !(open(IN,$ARGV[0]) ) ) { sleep(10); }

my $data1;

# データ取得部
while( <IN> )
    {
    my $data0 = $_;
    chomp( $data0 );
    
    $data1 .= $data0 ;
    }
close(IN);

my $enc = guess_encoding($data1, qw/euc-jp shiftjis 7bit-jis utf8/);
ref($enc) or die "Can't guess: $enc";
Encode::from_to($data1, $enc , "shiftjis");

# データ解析部
my @data2 = split /<td class="item_title">/ , $data1;
shift @data2;

my @uri;
my @title;
my @siteTitle;

foreach my $data3( @data2 )
    {
    my @data4 = split /<a href="/ , $data3;
    shift @data4;
    my $flag = 0;
    
    if( $data4[0] =~ /(.*?)"/ )
        {
        push( @uri , $1 );
        $flag++;
        }
    
    if( $data4[1] =~ />(.*)<¥/a>/ )
        {
        push( @title , $1 );
        $flag++;
        }

    if( $data4[2] =~ />(.*)<¥/a>/ )
        {
        push( @siteTitle , $1 );
        $flag++;
        }

    if( $flag != 3 )
        {
        print "Formatエラー¥n";
        exit;
        }
    }

# データ表示部
for(my $loop=0;$loop<=$#uri;$loop++)
    {
    print "$uri[ $loop ]¥t$title[ $loop ]¥t$siteTitle[ $loop ]¥n";
    }

print $#uri+1,"件出力しました¥n";

| herbgarden | コンピュータ | comments(0) | trackbacks(1) | このエントリーを含むはてなブックマーク
スポンサーサイト
| スポンサードリンク | - | - | - | このエントリーを含むはてなブックマーク









url: http://herbgarden.jugem.cc/trackback/878
お疲れ様でした > feedpath
WebのサービスとしてRSSリーダ&ブログエディタを提供していたfeedpath Rabbitが本日をもって終了するそうです。 SaaS事業に集中するためのようです。 うちの会社でブログエディタを作りだ...
| Charlie's volatile short | 2008/04/30 10:28 PM |