Suggestion: Not parseable resources ->parseable resources #40

ghost · 2017-09-07T12:57:16Z

I took a peak at your source code. One source for crawling issues is that you currently define in the code not_parseable_ressources. Instead, if you define parseable resources and limit those to only truly parseable resources that are are supported in the sitemap and may contain plain text html links, you can limit issues with unknown extensions. Also you might take a look at using mime types instead of file extensions. I am not sure how that works in Python though.

c4software · 2017-09-07T20:09:45Z

The not parseable ressource is more like a self guard to avoid some nasty case. But, its not a bad idea i will take a look.

c4software self-assigned this Sep 7, 2017

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Suggestion: Not parseable resources ->parseable resources #40

Suggestion: Not parseable resources ->parseable resources #40

ghost commented Sep 7, 2017

c4software commented Sep 7, 2017

Suggestion: Not parseable resources ->parseable resources #40

Suggestion: Not parseable resources ->parseable resources #40

Comments

ghost commented Sep 7, 2017

c4software commented Sep 7, 2017