Mostrando entradas con la etiqueta búsqueda. Mostrar todas las entradas
Mostrando entradas con la etiqueta búsqueda. Mostrar todas las entradas

martes 25 de diciembre de 2007

De Google Sets al Trip Hop

Ya sabemos que Google Sets nos puede ayudar a encontrar términos relacionados con un conjunto de términos dado.
Démosle alguna utilidad: imaginemos que conocemos 2 grupos musicales, "Portishead" y "Bjork", y queremos encontrar otros similares... ver el resultado.
Estos son algunos que encontré cuando realicé la búsqueda:

  • Massive Attack
  • Radiohead
  • Morcheeba
  • P J Harvey
  • ...
Sin querer, estaba descubriendo el Trip Hop.
Ahí va una lista de vídeos de estos grupos en Youtube.
Ver también:

domingo 2 de diciembre de 2007

Búsqueda de citas y refranes

El siguiente motor de búsqueda, creado con Google Custom Search, busca citas y refranes en las webs que se hayan configurado (citasyrefranes.com, etc):




Otra forma de buscar:
http://www.google.com/search?q=pereza+inurl:www.citasyrefranes.com/famosas/autor

En este caso, se busca la palabra "pereza" entre las citas famosas de citasyrefranes.com.

Esta web permite exportar las citas de cada autor en pdf. Ver, por ejemplo, las citas de La Rochefoucauld en pdf.

También ofrece la posibilidad de publicar en tu web la cita del día. Por ejemplo:

martes 23 de octubre de 2007

Búsqueda y sustitución masiva en ficheros con find, sed y expresiones regulares

Supongamos, por ejemplo, que queremos buscar en una determinada carpeta (y en sus subcarpetas incluidas recursivamente) los ficheros de extensión html y hacer una sustitución masiva de un determinado texto que cumpla cierto patrón por otro diferente considerando las coincidencias con el patrón anterior.

Para ello se pueden utilizar los comandos find y sed, de la siguiente manera:

find . -type f -name "*.html" -exec sed -i -e "s/unaCadena/otraCadena/g" "{}" \;
A estas cadenas se pueden aplicar expresiones regulares. Ver también esta hoja rápida de referencia, muy útil.

Otros comandos unix/linux en UNIXhelp.

Si tienes Windows, puedes instalarte Cygwin para ejecutar comandos unix/linux.

domingo 23 de septiembre de 2007

Google Custom Search

Con Google Custom Search puedes utilizar Google para implementar una búsqueda personalizada sobre tus sitios web, incluyendo el resultado de las búsquedas en tus propias páginas.

Ver como ejemplo la búsqueda de esta web.

OJO:
El generador del código de Google Custom Search tiene actualmente un error !
Realiza las búsquedas en marthastewart.com !!
Para resolverlo busca el siguiente código:

... CSEOverlay("016190567323994971912:omuffhdj_iy" ...

y sustitúye la clave por la de tu propio buscador.
Puedes saber tu clave buscando, por ejemplo, una cadena de la forma:
searchbox_nnnnnnnnnnnnnnnnnnnnn:aaaaaaaaaaa

jueves 6 de septiembre de 2007

Búsqueda de libros Google

Hoy he descubierto una nueva funcionalidad de Google (estos no paran....):
la Búsqueda de libros.

Permite buscar libros y dar de alta tu biblioteca para que puedan verla otras personas.
Se encuentran casi todos los libros, pero no exáctamente las mismas versiones. Todavía tiene que madurar un poco (claro, está en fase "beta"...).
Incluso te permite leer muchos de los libros !

Ver, por ejemplo, el Principio de Dilbert, de Scott Adams.

Ver otros libros de la biblioteca del holgazán.





¿Interesado en alguno?

jueves 9 de agosto de 2007

Buscar música con Google

No es la panacea pero seguro que encuentras muchos archivos de música, al menos los más conocidos, sobre todo en inglés...

Simplemente busca en Google:

-inurl:(htm|html|php) intitle:"index of" +"last modified" +"parent directory" +description +size +(wma|mp3) "u can´t touch this"
donde puedes sustiruir "u can´t touch this" por el tema o el intérprete que buscas.

Y este mismo truco puede servirte para buscar otro tipo de archivos !!

Vía awswebshop.com.

lunes 6 de agosto de 2007

Búsquedas de Google en tu sitio web

Para colocar una búsqueda en su sitio web que utilice la búsqueda personalizada de Google basta configurar un formulario similar a este:

<form action="http://www.google.com/custom" method="GET">
<input maxlength="255" value="" name="q" size="20" type="text"/>
<input value="Buscar" name="sa" type="submit"/>
<input value="elholgazan.com" name="sitesearch" type="hidden"/>
<input value="elholgazan.com;blogspot.com" name="domains" type="hidden"/>
<input value="BGC:white;AH:left;LC:#FF6600;GFNT:#383838;GALT:#8B8957;AWFID:fedb2d9b7f446049;" name="cof" type="hidden"/>
</form>
Estos son los parámetros a configurar:
  • sitesearch - Sitio web donde quiere restringirse la búsqueda. Por ejemplo: elholgazan.com.
  • domains - dominios que se quiere que aprezcan como opciones bajo la caja de búsqueda. Por ejemplo: elholgazan.com;blogspot.com.
  • cof - Configuración de la página de resultados. Admite los siguientes parámetros:
    • BGC - Color de fondo de la página. Por defecto es blanco.
    • T - Color del texto. Por defecto es negro.
    • L - URL del logo propio.
    • S - URL del enlace del logo propio.
    • LW - Anchura en pixels del logo propio. Por defecto toma la de la imagen.
    • LH - Altura del logo propio. Por defecto toma la de la imagen.
    • AH - Alineación de la cabecera, que incluye el logo propio, el logotipo de Google y la caja de búsqueda. Por defecto es "center".
    • FORID - Estilo del logo de Google y del pie de página. Valores: 0 y 1. Por defecto 0. El valor 1 sólo funciona si se indica el parámetro client, con el identificador de cliente (¿es gratuito?).
    • GL - Estilo de la cabecera. Se refiere al color de fondo y al borde. Admite los valores 0, 1 y 2. Su utilidad es dudosa.
    • LC - Color de los enlaces. Por defecto es azul.
    • DIV - Color de la línea de división con la cabecera. Por defecto es LC.
    • VLC - Color de los enlaces visitados. Por defecto es el indicado en LC.
    • GFNT - Color de los enlaces "En caché" y "Páginas similares". Por defecto es negro.
    • GALT - Color del texto de dirección de cada resultado encontrado.
    • GIMP - Color del número de página activa. Por defecto es negro.
    • ALC - ¿Color de...?
    • LBGC - ¿Color de...?
    • DIV - ¿Color de...?
    • AWFID - ¿?

Ejemplo en acción:









¿Conoces algo más sobre estos parámetros?

23/09/2007
Ver Google Custom Search.

jueves 26 de julio de 2007

Apache Lucene para la búsqueda textual

Lucene (http://lucene.apache.org/java)
Librería que constituye un motor de búsqueda textual, escrito enteramente en Java.

Solr (http://lucene.apache.org/solr)
Servidor de búsqueda basado en la librería de búsqueda Lucene Java, con APIs XML/HTTP y JSON, que cuenta con una interfaz web de administración. Se ejecuta en cualquier contenedor de servlets Java, como Tomcat.

Nutch (http://lucene.apache.org/nutch)
Software de búsqueda para la web (como Google), construido sobre Lucene Java, con añadidos específicos para buscar en la web, como un robot de búsqueda, base de datos del grafo de enlaces, parser para documentos HTML y otros formatos, etc.

viernes 20 de julio de 2007

Hacer mejores búsquedas en Google

Aquí se hace un resumen de las formas que tenemos de sacar más provecho a las búsquedas que hacemos en Google.

Con ellas se pueden obtener incluso mejores resultados que con la propia búsqueda avanzada que Google ofrece.

Nociones básicas

  • Sabemos que Google busca palabras clave, ignorando términos superfluos en general.

Por ejemplo, si buscamos:

En un lugar de La Mancha

Nos devolverá páginas que contienen estas palabras clave en cualquier parte del texto, ignorando 'En', 'un', 'de' y 'La'.

  • Para que se tengan en cuenta los términos superfluos, basta incluir el signo '+' por delante:
+En +un lugar +de +La Mancha
  • Para buscar expresiones exactas deben buscarse entre comillas.
"En un lugar de La Mancha"
  • No se distinguen mayúsculas y minúsculas.

Esta búsqueda produce el mismo resultado que la anterior:

"en un lugar de la mancha"
  • Puede usarse como comodín el carácter '*', de forma que sea eqivalente a cualquier palabra en las búsquedas exactas, pero sólo para palabras completas.
"Don * de La Mancha"
  • Si se buscan páginas que contengan varias expresiones, basta escribirlas una tras otra.
lugar "La Mancha" Quijote

Hay que tener en cuenta que el orden afecta al orden en que se nos van a mostrar los resultados.

  • Si se quieren páginas que contegan al menos una de las expresiones, hay que utilizar el operador 'or'.
lugar or "La Mancha" or Quijote
  • Si se quieren excluir páginas que contengan alguna expresión, basta añadir el signo '-' antes de cada expresión a excluir.
Cervantes -"Don Quijote"
  • Para encontrar una expresión concreta o cualquier otra que Google considere equivalentes, poner el símbolo '~'.
Cervantes ~escritor
  • Para buscar números en un rango determinado hay que especificarlo con '..'.
Cervantes 1995..2007
  • Se pueden utilizar paréntesis para combinar las operaciones anteriores.
"Don Quijote" or (Cervantes "La Mancha" -Sancho)

Sintaxis especiales

Estos son los operadores más importanes, que hay que anteponerlos a la expresión correspondiente para obtener el resultado deseado:

  • 'intitle:' busca sólo en el título de las páginas web.

Por ejemplo:

Cervantes intitle:"Don Quijote"

De esta forma se buscan páginas que tengan 'Don Quijote' en el título y 'Cervantes' en cualquier parte.

  • 'intext:' busca sólo en el cuerpo del texto.
  • 'inanchor:' para buscar en el texto de los enlaces que tenga la página.
  • 'site:' busca sólo páginas en el diectorio principal de un sitio o dominio concreto. No sirve para páginas que no estén en el nivel principal de directorios del sitio.
Cervantes site:es
Cervantes site:yahoo.com
  • 'inurl:' restringe la búsqueda a páginas que contengan cierto texto en su URL. Aquí sí se tienen en cuenta las páginas que no estén en el directorio principal de su sitio.
Cervantes inurl:Quijote
  • 'datarange:' se usa para buscar sólo en páginas que fueron indexadas entre dos fechas cocretas.

Es útil para eliminar de las búsquedas las páginas antes o después de que ocurriera algún suceso concreto. También puede servir para analizar tendencias, viendo como evolocionan los resultados con el tiempo.

Hay que tener en cuenta que la fecha que se considera es la de la última indexación de la página, que puede que no tenga nada que ver con la de su creación, pero puede resultar muy útil porque suele ser algo posterior a la de su última modificación.

El formato es:

daterange:fechaInicial-fechaFinal

Pero tiene el inconveniente de que las fechas deben indicarse en formato de fechas julianas, que se define como el número de días transcurridos desde el 1 de enero del año 4713 a.C.

Así pues, para buscar por ejemplo entre el 01/06/2002 y el 15/06/2002 hay que indicar:

daterange:2452427-2452441

Este es uno de los operadores menos documentados de Google. De hecho, en la propia búsqueda avanzada no puede utilizarse con toda la versatilidad que esta sintaxis permite.

  • 'filetype:' para buscar sólo determinados tipos de archivo: html, pdf, doc, xls, etc.

Ejemplo, para buscar archivos pdf:

Cervantes "La Mancha" filetype:pdf
  • 'related:' encuentra páginas relacionadas, según Google, con la página en cuestión.

Por ejemplo, para buscar páginas relacionadas con Yahoo:

related:www.yahoo.com
  • 'link:' busca las páginas que tienen un enlace a la página que se indique.

Un ejemplo, para encontrar las páginas que enlazan con la página principal de Google:

link:www.google.com


Todos los operadores comentados aquí, excepto este último, 'link:', pueden combinarse entre ellos y con los operadores básicos del apartado anterior.

Una forma práctica de obtener resultados parecidos a los que tendríamos si se pudiera combinar el operador 'link:' es utilizar 'inanchor:' menos 'inurl:'.

Por ejemplo, para obtener las páginas que contengan 'Cervantes' y que enlazan con la página principal de Yahoo, pero que no sean del propio Yahoo, no puede usarse:

Cervantes link:www.yahoo.com -inurl:yahoo.com

Pero podemos intentar:

Cervantes inanchor:yahoo -inurl:yahoo.com