2ちゃんねる ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

天才プログラマいたら聞きたいんだけど正規表現にマッチするURL全て検索するにはどうすればいいの? [623230948]

1 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 08:29:44.51 ID:mHsuxH+X0.net ?2BP(1000)
sssp://img.5ch.net/ico/banana.gif
例えば
pattern = r"http:\/\/www\.kaitorimax\.com\/signkai\/\d{4}\/\d{4}_toda_makoto\/toda_makoto\.html"

と検索すれば買取りまっくすの戸田真琴のサイン会レポートのURLが全て手に入るみたいなこういうシステムを作りたい

URLを入力してください: http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/toda_makoto.html
画像URL一覧:
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/1.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/2.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/3.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/4.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/5.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/6.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/7.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/8.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/9.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/10.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/11.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/12.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/13.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/14.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/15.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/16.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/17.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/18.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/19.jpg

[Program finished]

2 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 08:30:37.67 ID:mHsuxH+X0.net ?2BP(1000)
sssp://img.5ch.net/ico/banana.gif
好きなAV女優の買取りまっくすイベントを簡単に検索できる魔法ツールを作りたい、Google検索でもヒットしないからな

総当たりしたらできないこともなさそうだけど
できれば総当たりはしたくない

3 :安倍晋三🏺 (ワッチョイW 7284-txhl):2024/02/12(月) 08:32:28.02 ID:+1pnAUiv0.net
サイト内のリンクをクリックして辿れるならSelenium
辿れないなら知らん

4 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 6305-MURb):2024/02/12(月) 08:32:52.86 ID:qCt9cBx60.net
ケモメンなら誰かデータ持ってるから頼んだらいいだろ

5 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 08:34:49.77 ID:mHsuxH+X0.net ?2BP(1000)
sssp://img.5ch.net/ico/banana.gif
>>3
カレンダーみたいなのはある
http://www.kaitorimax.com/signkai/signkai.html

6 :番組の途中ですがアフィサイトへの\(^o^)/です (スップ Sd52-cSUf):2024/02/12(月) 08:36:04.07 ID:DIx1QogUd.net
昔のダウンロードソフトとかそんな機能ありそう

7 :安倍晋三🏺 (ワッチョイW 1fb1-lpOu):2024/02/12(月) 08:36:55.16 ID:Xvs+KSPb0.net
Puppeteerで作ってページ開いてドキュメントノードのソース抜いてその中を /rrgexp/g で検索すりゃええだろ

8 :番組の途中ですがアフィサイトへの\(^o^)/です (アウアウウー Sac3-WdaQ):2024/02/12(月) 08:37:02.18 ID:AJM3W4Fla.net
そのサイトの全ての構成要素をぶっこぬけるフリーソフトの~~(名前忘れた)エクスプローラってあるよね

全部抜いてきてエクセルに貼り付けて
TODAでフィルタかけたら良いじゃん

9 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイW c661-5AU2):2024/02/12(月) 08:37:59.85 ID:stcEMOoc0.net
それよりハイ美女ん風呂で検索総取り出来た方が有能だわ

10 :安倍晋三🏺 ◆.abeshinZo (ワッチョイW 6684-ffuv):2024/02/12(月) 08:38:53.86 ID:LMvgy3SO0.net
googleカレンダーならAPIあるんじゃない
知らんけど

11 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW 5e9f-fhIE):2024/02/12(月) 08:39:21.84 ID:8uO1gb4s0.net
人間に聞くよりAIに聞くほうが早い

12 :🏺 (ワッチョイW 6b12-+162):2024/02/12(月) 08:39:37.84 ID:XUn2uT+X0.net
それ正規表現というか、昔のリゲットとかアーバインとかであった機能だろ

13 :安倍晋三🏺 (ワッチョイ 2798-9hwO):2024/02/12(月) 08:40:52.90 ID:cKeXkwAG0.net
ヘッドレスなんて使う必要ないだろ
ソースに全部出てるじゃん

14 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイW 62a8-tTkk):2024/02/12(月) 08:41:26.42 ID:0NzaaPGu0.net
転載プログラマー以外は書き込むなよ
恥ずかしくないのか?
なあ?

15 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 1657-PZY7):2024/02/12(月) 08:42:45.32 ID:ckRYQrW00.net
日付を取得して、日付からその日のレポートページのURLを作って
羅列したいってこと?

16 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 92a4-XBsd):2024/02/12(月) 08:43:17.86 ID:P67P0YG20.net
>>5のソース中に載ってるじゃん
画像のalt属性値が女優名でその親要素がURLちゃうの

17 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 08:44:15.95 ID:mHsuxH+X0.net ?2BP(1000)
sssp://img.5ch.net/ico/banana.gif
本当だ!全部あるじゃん!

18 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 2239-XyAm):2024/02/12(月) 08:44:59.56 ID:0WXpMmtD0.net
え?AIに聞けよ

19 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイW f710-43hX):2024/02/12(月) 08:45:06.11 ID:qQdKKKQ80.net
天才だけど、わからない人に教えるの難しいから書きたくない

20 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW 1e56-IPRC):2024/02/12(月) 08:47:05.13 ID:T/gepJX80.net
大前提として全ページスクレイプしてURLリスト作る必要があるから一般化できるプログラムだと効率悪いものしかできない

ターゲットにするサイトの階層とかHTML構造調べて自分で作れとしか言いようがない

100%網羅しなくてもokなら、Wayback MachineのAPI叩いてURLリストぶっこ抜くのが楽
https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server

21 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW 92c6-8usI):2024/02/12(月) 08:48:26.38 ID:cn3QjnEm0.net
邪悪に行くならURLの年月日部分全てアクセスして200 OK返ってくるやつを探す

22 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイ 724c-XyAm):2024/02/12(月) 08:50:24.64 ID:5Dvj4jj10.net
そもそも日本の場合、ページを収集してサーバーに負荷をかけたら捕まる可能性があるんじゃないのか

23 :安倍晋三🏺 (ワッチョイ 2798-9hwO):2024/02/12(月) 09:04:40.32 ID:cKeXkwAG0.net
>>22
並列処理しなければ大丈夫

24 :安倍晋三🏺 (ワッチョイW ef8f-J1F2):2024/02/12(月) 09:06:11.92 ID:elJIuD4S0.net
>>21
これでいいんじゃねえの
負荷かけるとヤバいから、平均で5秒に1アクセスくらいにして、アクセス時間も適度にランダム化しておくべきだが

25 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW f783-inam):2024/02/12(月) 09:17:49.89 ID:cee+Os210.net
簡単なスクレイピングスクリプトならAIが作ってくれる

26 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイ ff14-XyAm):2024/02/12(月) 09:18:04.73 ID:oZLbclED0.net
ゲットしたHTMLソースから抜くだけだろ

27 :安倍晋三 (ワッチョイ efa2-6uJS):2024/02/12(月) 09:22:15.99 ID:PRvMUaL50.net
昔あったダウンロードツール使えばいいだけだろ

28 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 1657-PZY7):2024/02/12(月) 09:24:08.99 ID:ckRYQrW00.net
ボタン押したらページ内でカレンダーが変化するだけの特殊なページだから難しいのか

29 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 634e-IqbK):2024/02/12(月) 09:26:40.98 ID:lefGKJJA0.net
import re

# パターン
pattern = r"http:\/\/www\.kaitorimax\.com\/signkai\/\d{4}\/\d{4}_toda_makoto\/toda_makoto\.html"

# URLを入力
input_url = input("URLを入力してください: ")

# 正規表現でパターンを検索
match = re.match(pattern, input_url)

if match:
print("URLはパターンと一致しました。")
else:
print("URLはパターンと一致しませんでした。")

30 :安倍晋三🏺 (ワッチョイ 2798-9hwO):2024/02/12(月) 09:29:40.43 ID:cKeXkwAG0.net
puppeteerならiframe内のノードも辿れるからな

31 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 09:34:17.89 ID:mHsuxH+X0.net ?2BP(1000)
sssp://img.5ch.net/ico/banana.gif
ありがとう、ソフトウェア完成した

32 :安倍晋二 ◆PREcUrE/Pg1B (ワッチョイW 27b5-EA0o):2024/02/12(月) 09:35:05.74 ID:tZK2Jx7S0.net
性器表現 (i)

33 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイW e319-+162):2024/02/12(月) 11:51:07.24 ID:DpVbb02Z0.net
正規表現訳わかんなさすぎて俺には無理。ChatGPTさんにいつも聞いてる。

34 :安倍晋三🏺 :2024/02/12(月) 13:16:06.40 ID:Xvs+KSPb0.net
何が難しいのかとは思うが新卒には1年目でフクロウ本ぐらいの内容はおさえるように言ってある

35 :番組の途中ですがアフィサイトへの\(^o^)/です :2024/02/12(月) 13:28:45.89 ID:Jm66WBCC0.net ?2BP(1000)
https://img.5ch.net/ico/telehoman_2.gif
調べてみたが、過去のサイン会のページが1800以上あって、それぞれ15くらいの写真があって
サーバーにすげえ負担かかるから、書くのやめとくわ
大量アクセスで鯖止まって営業妨害とか言われて逮捕されると嫌だし

36 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW efdd-enaZ):2024/02/12(月) 13:30:47.08 ID:39lA1ct70.net
馬鹿なスクレイピングは犯罪になりうるからな

37 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 6fdd-aAsb):2024/02/12(月) 13:32:10.21 ID:Jm66WBCC0.net ?2BP(1000)
sssp://img.5ch.net/ico/telehoman_2.gif
コンソールでjavascript使って、サイン会の女優ごとの個別ページへのリンクを正規表現で拾って
そこから画像リンクの親パスだけ抜き出して、async awaitで非同期でアクセスしながら2分法で有効なリンクの数字を判定していくのを繰り返せば
2万7000くらいのリンクが得られる
大人数で一気にアクセスしたらサーバーの負荷が大きい

38 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 6fdd-aAsb):2024/02/12(月) 13:32:47.09 ID:Jm66WBCC0.net ?2BP(1000)
sssp://img.5ch.net/ico/telehoman_2.gif
>>836
ほんまやで

39 :安倍晋二 ◆PREcUrE/Pg1B (ワッチョイW 27b5-EA0o):2024/02/12(月) 13:39:03.88 ID:tZK2Jx7S0.net
>>35
1アクセスごとに1分とかウェイト入れて、通常人間が閲覧するスピードや件数の範囲でやれば問題ない
聞かれたら「手作業で見てた」って言えるしな

40 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 6fdd-aAsb):2024/02/12(月) 13:40:56.48 ID:Jm66WBCC0.net ?2BP(1000)
sssp://img.5ch.net/ico/telehoman_2.gif
>>39
無視してsleep(実際はinterval)してる部分を消して速攻アクセス繰り返すバカが大量に出て来るので
第三者に向けてスクレイピングのスクリプトを公開するのは危険

41 :安倍晋三🏺 ◆ABeSHInzoo (アウアウウー Sac3-m9Rh):2024/02/12(月) 13:46:24.89 ID:JisA/sBPa.net
誰かが画像だけまとめてアップロードするとか
AI学習用の用途で

42 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 1ec8-DzsE):2024/02/12(月) 14:02:25.23 ID:CcPj8ZTt0.net
全部落としてから考えれば

43 :安倍晋三エクスプローラー🏺 (ワッチョイ 6f4a-QrxV):2024/02/12(月) 14:04:32.10 ID:HlxPqZYj0.net ?2BP(2000)
sssp://img.5ch.net/ico/001.gif
正規表現はChatGPTに聞くのが手っ取り早いぞ

総レス数 43
12 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver.24052200