■ このスレッドは過去ログ倉庫に格納されています
天才プログラマいたら聞きたいんだけど正規表現にマッチするURL全て検索するにはどうすればいいの? [623230948]
- 1 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 08:29:44.51 ID:mHsuxH+X0.net ?2BP(1000)
- sssp://img.5ch.net/ico/banana.gif
例えば
pattern = r"http:\/\/www\.kaitorimax\.com\/signkai\/\d{4}\/\d{4}_toda_makoto\/toda_makoto\.html"
と検索すれば買取りまっくすの戸田真琴のサイン会レポートのURLが全て手に入るみたいなこういうシステムを作りたい
URLを入力してください: http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/toda_makoto.html
画像URL一覧:
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/1.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/2.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/3.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/4.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/5.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/6.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/7.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/8.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/9.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/10.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/11.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/12.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/13.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/14.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/15.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/16.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/17.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/18.jpg
http://www.kaitorimax.com/signkai/2019/0427_toda_makoto/img/19.jpg
[Program finished]
- 2 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 08:30:37.67 ID:mHsuxH+X0.net ?2BP(1000)
- sssp://img.5ch.net/ico/banana.gif
好きなAV女優の買取りまっくすイベントを簡単に検索できる魔法ツールを作りたい、Google検索でもヒットしないからな
総当たりしたらできないこともなさそうだけど
できれば総当たりはしたくない
- 3 :安倍晋三🏺 (ワッチョイW 7284-txhl):2024/02/12(月) 08:32:28.02 ID:+1pnAUiv0.net
- サイト内のリンクをクリックして辿れるならSelenium
辿れないなら知らん
- 4 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 6305-MURb):2024/02/12(月) 08:32:52.86 ID:qCt9cBx60.net
- ケモメンなら誰かデータ持ってるから頼んだらいいだろ
- 5 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 08:34:49.77 ID:mHsuxH+X0.net ?2BP(1000)
- sssp://img.5ch.net/ico/banana.gif
>>3
カレンダーみたいなのはある
http://www.kaitorimax.com/signkai/signkai.html
- 6 :番組の途中ですがアフィサイトへの\(^o^)/です (スップ Sd52-cSUf):2024/02/12(月) 08:36:04.07 ID:DIx1QogUd.net
- 昔のダウンロードソフトとかそんな機能ありそう
- 7 :安倍晋三🏺 (ワッチョイW 1fb1-lpOu):2024/02/12(月) 08:36:55.16 ID:Xvs+KSPb0.net
- Puppeteerで作ってページ開いてドキュメントノードのソース抜いてその中を /rrgexp/g で検索すりゃええだろ
- 8 :番組の途中ですがアフィサイトへの\(^o^)/です (アウアウウー Sac3-WdaQ):2024/02/12(月) 08:37:02.18 ID:AJM3W4Fla.net
- そのサイトの全ての構成要素をぶっこぬけるフリーソフトの~~(名前忘れた)エクスプローラってあるよね
全部抜いてきてエクセルに貼り付けて
TODAでフィルタかけたら良いじゃん
- 9 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイW c661-5AU2):2024/02/12(月) 08:37:59.85 ID:stcEMOoc0.net
- それよりハイ美女ん風呂で検索総取り出来た方が有能だわ
- 10 :安倍晋三🏺 ◆.abeshinZo (ワッチョイW 6684-ffuv):2024/02/12(月) 08:38:53.86 ID:LMvgy3SO0.net
- googleカレンダーならAPIあるんじゃない
知らんけど
- 11 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW 5e9f-fhIE):2024/02/12(月) 08:39:21.84 ID:8uO1gb4s0.net
- 人間に聞くよりAIに聞くほうが早い
- 12 :🏺 (ワッチョイW 6b12-+162):2024/02/12(月) 08:39:37.84 ID:XUn2uT+X0.net
- それ正規表現というか、昔のリゲットとかアーバインとかであった機能だろ
- 13 :安倍晋三🏺 (ワッチョイ 2798-9hwO):2024/02/12(月) 08:40:52.90 ID:cKeXkwAG0.net
- ヘッドレスなんて使う必要ないだろ
ソースに全部出てるじゃん
- 14 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイW 62a8-tTkk):2024/02/12(月) 08:41:26.42 ID:0NzaaPGu0.net
- 転載プログラマー以外は書き込むなよ
恥ずかしくないのか?
なあ?
- 15 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 1657-PZY7):2024/02/12(月) 08:42:45.32 ID:ckRYQrW00.net
- 日付を取得して、日付からその日のレポートページのURLを作って
羅列したいってこと?
- 16 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 92a4-XBsd):2024/02/12(月) 08:43:17.86 ID:P67P0YG20.net
- >>5のソース中に載ってるじゃん
画像のalt属性値が女優名でその親要素がURLちゃうの
- 17 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 08:44:15.95 ID:mHsuxH+X0.net ?2BP(1000)
- sssp://img.5ch.net/ico/banana.gif
本当だ!全部あるじゃん!
- 18 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 2239-XyAm):2024/02/12(月) 08:44:59.56 ID:0WXpMmtD0.net
- え?AIに聞けよ
- 19 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイW f710-43hX):2024/02/12(月) 08:45:06.11 ID:qQdKKKQ80.net
- 天才だけど、わからない人に教えるの難しいから書きたくない
- 20 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW 1e56-IPRC):2024/02/12(月) 08:47:05.13 ID:T/gepJX80.net
- 大前提として全ページスクレイプしてURLリスト作る必要があるから一般化できるプログラムだと効率悪いものしかできない
ターゲットにするサイトの階層とかHTML構造調べて自分で作れとしか言いようがない
100%網羅しなくてもokなら、Wayback MachineのAPI叩いてURLリストぶっこ抜くのが楽
https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server
- 21 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW 92c6-8usI):2024/02/12(月) 08:48:26.38 ID:cn3QjnEm0.net
- 邪悪に行くならURLの年月日部分全てアクセスして200 OK返ってくるやつを探す
- 22 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイ 724c-XyAm):2024/02/12(月) 08:50:24.64 ID:5Dvj4jj10.net
- そもそも日本の場合、ページを収集してサーバーに負荷をかけたら捕まる可能性があるんじゃないのか
- 23 :安倍晋三🏺 (ワッチョイ 2798-9hwO):2024/02/12(月) 09:04:40.32 ID:cKeXkwAG0.net
- >>22
並列処理しなければ大丈夫
- 24 :安倍晋三🏺 (ワッチョイW ef8f-J1F2):2024/02/12(月) 09:06:11.92 ID:elJIuD4S0.net
- >>21
これでいいんじゃねえの
負荷かけるとヤバいから、平均で5秒に1アクセスくらいにして、アクセス時間も適度にランダム化しておくべきだが
- 25 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW f783-inam):2024/02/12(月) 09:17:49.89 ID:cee+Os210.net
- 簡単なスクレイピングスクリプトならAIが作ってくれる
- 26 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイ ff14-XyAm):2024/02/12(月) 09:18:04.73 ID:oZLbclED0.net
- ゲットしたHTMLソースから抜くだけだろ
- 27 :安倍晋三 (ワッチョイ efa2-6uJS):2024/02/12(月) 09:22:15.99 ID:PRvMUaL50.net
- 昔あったダウンロードツール使えばいいだけだろ
- 28 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 1657-PZY7):2024/02/12(月) 09:24:08.99 ID:ckRYQrW00.net
- ボタン押したらページ内でカレンダーが変化するだけの特殊なページだから難しいのか
- 29 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 634e-IqbK):2024/02/12(月) 09:26:40.98 ID:lefGKJJA0.net
- import re
# パターン
pattern = r"http:\/\/www\.kaitorimax\.com\/signkai\/\d{4}\/\d{4}_toda_makoto\/toda_makoto\.html"
# URLを入力
input_url = input("URLを入力してください: ")
# 正規表現でパターンを検索
match = re.match(pattern, input_url)
if match:
print("URLはパターンと一致しました。")
else:
print("URLはパターンと一致しませんでした。")
- 30 :安倍晋三🏺 (ワッチョイ 2798-9hwO):2024/02/12(月) 09:29:40.43 ID:cKeXkwAG0.net
- puppeteerならiframe内のノードも辿れるからな
- 31 :安倍晋三🏺 ◆C3g6ph46co (ワッチョイW 1f4c-uFij):2024/02/12(月) 09:34:17.89 ID:mHsuxH+X0.net ?2BP(1000)
- sssp://img.5ch.net/ico/banana.gif
ありがとう、ソフトウェア完成した
- 32 :安倍晋二 ◆PREcUrE/Pg1B (ワッチョイW 27b5-EA0o):2024/02/12(月) 09:35:05.74 ID:tZK2Jx7S0.net
- 性器表現 (i)
- 33 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイW e319-+162):2024/02/12(月) 11:51:07.24 ID:DpVbb02Z0.net
- 正規表現訳わかんなさすぎて俺には無理。ChatGPTさんにいつも聞いてる。
- 34 :安倍晋三🏺 :2024/02/12(月) 13:16:06.40 ID:Xvs+KSPb0.net
- 何が難しいのかとは思うが新卒には1年目でフクロウ本ぐらいの内容はおさえるように言ってある
- 35 :番組の途中ですがアフィサイトへの\(^o^)/です :2024/02/12(月) 13:28:45.89 ID:Jm66WBCC0.net ?2BP(1000)
- https://img.5ch.net/ico/telehoman_2.gif
調べてみたが、過去のサイン会のページが1800以上あって、それぞれ15くらいの写真があって
サーバーにすげえ負担かかるから、書くのやめとくわ
大量アクセスで鯖止まって営業妨害とか言われて逮捕されると嫌だし
- 36 :安倍晋三🏺 ◆ABeSHInzoo (ワッチョイW efdd-enaZ):2024/02/12(月) 13:30:47.08 ID:39lA1ct70.net
- 馬鹿なスクレイピングは犯罪になりうるからな
- 37 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 6fdd-aAsb):2024/02/12(月) 13:32:10.21 ID:Jm66WBCC0.net ?2BP(1000)
- sssp://img.5ch.net/ico/telehoman_2.gif
コンソールでjavascript使って、サイン会の女優ごとの個別ページへのリンクを正規表現で拾って
そこから画像リンクの親パスだけ抜き出して、async awaitで非同期でアクセスしながら2分法で有効なリンクの数字を判定していくのを繰り返せば
2万7000くらいのリンクが得られる
大人数で一気にアクセスしたらサーバーの負荷が大きい
- 38 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 6fdd-aAsb):2024/02/12(月) 13:32:47.09 ID:Jm66WBCC0.net ?2BP(1000)
- sssp://img.5ch.net/ico/telehoman_2.gif
>>836
ほんまやで
- 39 :安倍晋二 ◆PREcUrE/Pg1B (ワッチョイW 27b5-EA0o):2024/02/12(月) 13:39:03.88 ID:tZK2Jx7S0.net
- >>35
1アクセスごとに1分とかウェイト入れて、通常人間が閲覧するスピードや件数の範囲でやれば問題ない
聞かれたら「手作業で見てた」って言えるしな
- 40 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 6fdd-aAsb):2024/02/12(月) 13:40:56.48 ID:Jm66WBCC0.net ?2BP(1000)
- sssp://img.5ch.net/ico/telehoman_2.gif
>>39
無視してsleep(実際はinterval)してる部分を消して速攻アクセス繰り返すバカが大量に出て来るので
第三者に向けてスクレイピングのスクリプトを公開するのは危険
- 41 :安倍晋三🏺 ◆ABeSHInzoo (アウアウウー Sac3-m9Rh):2024/02/12(月) 13:46:24.89 ID:JisA/sBPa.net
- 誰かが画像だけまとめてアップロードするとか
AI学習用の用途で
- 42 :番組の途中ですがアフィサイトへの\(^o^)/です (ワッチョイ 1ec8-DzsE):2024/02/12(月) 14:02:25.23 ID:CcPj8ZTt0.net
- 全部落としてから考えれば
- 43 :安倍晋三エクスプローラー🏺 (ワッチョイ 6f4a-QrxV):2024/02/12(月) 14:04:32.10 ID:HlxPqZYj0.net ?2BP(2000)
- sssp://img.5ch.net/ico/001.gif
正規表現はChatGPTに聞くのが手っ取り早いぞ
総レス数 43
12 KB
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver.24052200