viernes, 10 de agosto de 2018

Determinando mis TLDs usuales --> Privoxy Log

Determinando mis TLDs usuales  --> Privoxy Log
------------------------------------------------------------------------
Para ..:: Usuarios de Privoxy y W10 (powershell)
------------------------------------------------------------------------

El objetivo es determinar mis dominios de nivel superior (TLDs) usuales; es decir en donde generalmente transito - navego; ayudado por el archivo "privoxy.log" que es el historial tras el historial del navegador . . ;D
Con el resuldao seremos capacez de restringir la navegacion a nuestros TLDs de confianza. . :D ... ó ser mas estrictos con las urls permitidas.

------------------------------------------------------------------------
Es un ejemplo de como llevarlo acabo; no pretendo dar una linea rigida de como realizarlo.
El analisis lo realizo en una de mis maquinas . . . tras un par de meses de navegacion de uso personal y de otros usuarios no usuales.
------------------------------------------------------------------------
Tras ubicar el archivo "privoxy.log" (donde puso priivoxy XD )
------------------------------------------------------------------------
Antes cerrar privoxy; por que esta escribiendo ... renombrar a "privoxy1.log"  . . .
. . . . . . . . . . . .
------------------------------------------------------------------------
Obteniendo solo urls . . .
------------------------------------------------------------------------
Get-Content "privoxy1.log" | Foreach-Object {$_ -Replace('^.+info:','')} | Foreach-Object {$_ -Replace('^.+Crunch:','')} | Foreach-Object {$_ -Replace('^.+Request:','')} | Foreach-Object {$_ -Replace('^.+Error:','')} | Where-Object {$_ -notmatch 'actions file'} | Where-Object {$_ -notmatch 'Privoxy version'} | Where-Object {$_ -notmatch 'Program name'} | Where-Object {$_ -notmatch 'Listening on'} |  Where-Object {$_ -notmatch 'data in time'}  | Where-Object {$_ -notmatch 'Blocked: localhost'} |  Where-Object {$_ -notmatch '^443$'} |  Where-Object {$_ -notmatch 'No server'} | Where-Object {$_ -notmatch 'write to client'} | Where-Object {$_ -notmatch 'Can not resolve'} | Where-Object {$_ -notmatch 'DNS failure'} | Where-Object {$_ -notmatch 'read from'} | Where-Object {$_ -notmatch 'CONNECT already'} | Where-Object {$_ -notmatch 'Connection failure'} | Where-Object {$_ -notmatch 'CGI Call'} | Where-Object {$_ -notmatch 'Invalid port'} | Set-Content "privoxy-00.txt"
-----------------------------------------------------------
Obtener solo urls . . . bloqueados
-----------------------------------------------------------
Get-Content "privoxy-00.txt" | Select-String -Pattern 'Blocked:' | Foreach-Object {$_ -Replace('^.+:\d*:','')} | Foreach-Object {$_ -Replace(' Blocked: ','')} | Foreach-Object {$_ -Replace(':443$','')} | Foreach-Object {$_ -Replace('^http://','')} | Foreach-Object {$_ -Replace('\/.+$','')} | Where-Object {$_ -notmatch '\/$'} |  foreach { $_ + '/' }  | Where-Object {$_ -notmatch '\:'}  | Where-Object {$_ -notmatch '\='} | Where-Object {$_ -notmatch '\&'} | Set-Content "privoxy-B.txt"
. . . . . . . . . . . . 
Determinando densidad de palabras . . . con powershell . . . lento . . .
. . . . . . . . . . . . 
$contents = ( Get-Content "privoxy-001.txt")
$words = $contents.split(" .,?()") | Where-Object {$_}
($words | Group-Object | Sort-Object -Property Count -Descending | Format-Table name,count -auto ) | Out-File "privoxy-B-densidad.txt"
. . . . . . . . . . . . 
Top: mis dominios mas bloqueados ( TLDs )
. . . . . . . . . . . . 
Get-Content "privoxy-densidad.txt" | Select-String -Pattern ('\/')  | Set-Content "privoxy-B-densidad-TLDs.txt"

-----------------------------------------------------------
Obtener solo urls . . . no bloqueados .. objetivo .. averiguar mis TLDs frecuentes
-----------------------------------------------------------
Get-Content "privoxy-00.txt" | Select-String -notmatch 'Blocked:' | Foreach-Object {$_ -Replace('^.+:\d*:','')} | Foreach-Object {$_ -Replace(':443$','')} | Foreach-Object {$_ -Replace('\/.+$','')} | Foreach-Object {$_ -Replace('^http://','')} | Foreach-Object {$_ -Replace('\.com:\d+\/','.com')} | Where-Object {$_ -notmatch '\/$'} |  foreach { $_ + '/' }  | Where-Object {$_ -notmatch '\:'}  | Where-Object {$_ -notmatch '\='} | Where-Object {$_ -notmatch '\&'} | Set-Content "privoxy-NB.txt"
. . . . . . . . . . . .
Determinando densidad de palabras . . . con powershell . . . lento . . .
. . . aqui se puede deducir que paginas se visitan mas
. . . . . . . . . . . .
$contents = ( Get-Content "privoxy-NB.txt")
$words = $contents.split(" .,?()") | Where-Object {$_}
($words | Group-Object | Sort-Object -Property Count -Descending | Format-Table name,count -auto ) | Out-File "privoxy-NB-densidad.txt"
. . . . . . . . . . . .
Top: mis dominios no bloqueados ( TLDs )
. . . . . . . . . . . .
Get-Content "privoxy-NB-densidad.txt" | Select-String -Pattern ('\/') | Set-Content "privoxy-NB-densidad-TLDs.txt"
. . . . . . . . . . . .
------------------------------------------------------------------------
------------------------------------------------------------------------
Comparacion entre dominos no bloqueados y bloqueados
------------------------------------------------------------------------
.. el objetivo es ver de donde llega la basura principalmente . . . XD
. . . . . . . . . . . .
En la imagen iinferior URLs ..::  Bloqueados VS No Bloqueados

- Como era de esperarse "Google" esta en todo . . . XD
- El dominio.com/ tiene tanta basura como paginas utiles . . . XD
- El resultado muestra visitas a youtube, periodicos, revistas, blogs, google. . . etc...; resultados muy limpios (nada de cosas como xxnx, playboy, etc...)
. . . . . . . . . . . . 
En la imagen iinferior TLDs..:: Bloqueados VS No Bloqueados

- Bloqueados, increible la cantidad de TLDs basura que intenta iingresar.
- No Bloqueados . . . era de esperarse dado que tengo reglas de bloqueo para TLDs que de no cumplirse no seran admitidas.
. . . . . . . . . . . .
Feliz limpieza . . . . XD

No hay comentarios.:

Publicar un comentario