предложения с нужной информацией.
def wurls(word,neg_word,url_list):
word += '.*'
rsf = []
for i,_ in enumerate(url_list):
u = re.sub('%25','%',re.sub('&.*','',re.sub('/url\?q=','',url_list[i])))
if u[-4:] == '.pdf':
rsf.append('файл '+u)
else:
try … # обработка ошибки доступа и получение корректного пейлоада ur
…
if ur:
ssoup = str(BS(ur.text))
sf = re.findall('(<|>)([^<>]*)(<|>)',ssoup)
for s in sf:
ss = s[1]
ss = re.sub('\\xa0',' ',ss)
prs = '[А-ЯЁ]{1}'+f'[^\.]*{word}.*?\.'
rsf.extend(re.findall(prs,ss,re.S))
for r in rsf:
if (re.search(neg_word,r) or (not re.search('20\d{2}',r))) and r[-4:] != '.pdf’:
rsf.remove(r)
return(rsf)