来自Rstudio会议的最佳提示和外卖
以下是从佛罗里达州基西米的2017年Rstudio会议中学到的新闻,提示和技巧。我正在在整个会议上更新这篇博客。我希望你能回来看看最新!
1月14日,下午3:31:使用R笔记本的生产力提示,来自Rstudio软件工程师Jonathan McPherson的演示:
RStudio的笔记本电脑的一个新的大纲视图:查找右上角的图标或使用Ctrl-Shift-OA笔记本的进度条作为导航栏将您带到当前运行的块。如果您想要制作笔记本更可重复的块 - 重启r和运行所有Chunksyou可以在较新版本的Rstudio中自定义键盘快捷键。转到工具>修改键盘快捷键。麦克弗森建议制作键盘快捷键,以崩溃和扩展所有笔记本块。1月14日,下午2:54:您可以使用R Markdown和相对较新的博客封装创建具有R的网站。它使用一个名为Hugo的静态站点生成器,可以使用命令博客:: install_hugo安装在r中。
博客辅助函数包括:new_site()来创建一个新站点,new_post(),install_theme(“hugo主题URL”)。 serve_site()重建您的网站并允许您在本地预览您的网站。(笔记:一些外部雨果主题可能需要调整以与博客一起工作;这不是记录的)。RStudio还有一个实时预览加载项,即名称暗示,允许您在本地重建并预览您的网站。New_post()填写一些在新r Markdown文件中的yaml元数据,以启动新帖子。
此外,今天下午在会议上写下它的全新到博克目:一键添加新帖子的“新帖子”rstudio加载项。
1月14日,下午1:44:来自Kevin Ushey的几个Rstudio IDE提示:
如果在引号内键入文件名的部分名称,则会有自动完成选项,将包含该文件的路径。
Rstudio中有更多的诊断而不是语法问题。它可以检查丢失的函数参数,在变量名中的拼写错误和更多。查看工具>代码>诊断以获取选项并启用它们。
1月14日,上午11:40:Yihui Xie的Savent R Markdown会议的幻灯片位于http://bit.ly/2017-rc-rmd。我从会议中四舍五入的一些提示:
1月14日,11:22:您可以将自己的CSS文件和HTML片段添加到您转换为HTML的R Markdown文档中。以下文档yaml标题的哪一部分看起来像:
输出:HTML_Document:CSS:“mycssfile.css”包括:IN_HEADER:“标题.html”之前_ Body:“befort.html”之后:“after.html”1月14日,11:05:渲染R Markdown文档时,您可以将它们选项设置为null以显着降低HTML文件大小。(默认使用引导主题有点大。)
1月14日,上午10:40:如果您编写显示R代码的文档,则另一个有用的提示:
```r [这里的一些代码]```没有卷曲括号显示R代码而不评估它。比速度更快
````{reg = false}```1月14日,上午9:10:本周CRAN新建:由Fivethirtyeight.com项目的项目,代码和故事的R包,由学术界创建的,他们正在寻找参与互动数据集,以帮助教授本科统计数据。Fivethirtyeight的工作人员与作者合作。包作者重写了一些fivethirtyight代码,使其更具可读性,并使用R“s”Tidyverse中的较新软件包更新。您可以在Cran上找到Fivethirtyight包。
在他的星期六开设主题演讲中的前Fivethirtyeight数据编辑器Andrew Flowers表示,有6种类型的数据故事危险:琐事。它很容易报到一些不是真正有意义的东西。策略:简单的摘要 - 最好对新数据进行简单分析,采取保守方法。另外,请问自己的发现是否真的对除了你们的任何人都很有趣 - 这是鲜花所说的最常见和最有效的数据故事。我们自然地吸引了关于“最佳”,“最糟糕的”等的故事。“他们”重新进入数据记者的面包和黄油。“它喜欢枪管中的射击鱼,”鲜花说。运动是一个例子:为什么斯蒂芬咖喱和莱昂内尔·梅西太棒了?问你自己:这真的如此不同吗?良好的策略:以某人/某事物作为兴趣的异常值,而不是似乎存在数据.Archetype - 讲述一些不一定不同或新的东西的故事,但有趣。例子:看着弗格森,密苏里州 - 是的,它是穷人和不平等的,但与许多其他美国社区不同?危险:简单化。策略:造型。请务必问自己:我遗漏了什么变量?他想保持简单,但不能过度简化,他说。 - 改变了什么?什么是新的?可以在突发新闻活动周围有效。危险:回归平均值。这个信号还是噪音?当事情回到均衡时,你可以看起来很傻。在讲述涉及时间序列和趋势的数据故事时是保守的。确保询问自己是否是信号或噪音。确保在得出结论之前确保有强有力的证据.debunking - 攻击令人沮丧的误解。例子:美元和美分案件在好莱坞不包括妇女。误解是,好莱坞电影专注于女性在财务上做得很好。fivethirtyeight在哪些电影中进行了综合分析,并没有准确地描绘了电影中的女性,电影“预算和投资回报。Fivethirtyeight包中的数据和代码可用。这种故事的危险:你自己的偏见。花建议问自己:我想揭穿多少钱?(i“D建议了解有趣的虚假相关位点,了解更多例子).Forecast - 通常使用概率模型,模拟和方案进行。任何预测模型的危险都是“过度装备”,假设数据适合模型,只许它不起作用。问问自己:我是否正确地在我的模型中传达了不确定性?
1月13日,下午5:43:BSPlus包的设计使您可以获得“闪亮应用程序中的更多东西”,Creator Ian Lyttle.Wraps Bootstrap组件,包括手风琴侧边栏,旋转木马,工具提示,弹出,帮助链接等。他说,它受到了闪亮主义包的启发。BSPlus中没有任何内容取决于闪亮的服务器部分,它是在UI方面的一部分,这意味着它也将在R Markdown文件中工作。
1月13日,下午5:34:Karl Broman,威斯康星大学 - 麦迪逊教授开始了Github Repo来收集与会议演示幻灯片的链接。
1月13日,下午5:21:Gggit包提供了一个用于编辑GGPLOT2图形或主题的交互式GUI - 然后让您查看更改背后的代码。
1月13日,下午5:12:星期五下午照明谈话:
ropensci封装要考虑您的ArsenalMagick - R访问ImageMagick图像编辑能力Hunspell - 拼写检查 - RTESSeract中的拼写检查 - 为光学字符识别EnginEtravis和TIC工具提供了访问,使其在特拉维斯方便工作请参阅幻灯片演示文稿
1月13日,下午5:27:CORR包易于探讨R - 将相关数据分析中的相关性探索到数据帧中,以进行更多分析。可以管道,“漂亮印刷”,可视化等。
1月13日,下午5:05:EasyMake包在R中创建文件,因此您不会在更新的数据上继续运行代码。它包括rstudio加载项。
1月13日,下午4:07:朱莉娅·默斯基队正在全面的文本挖掘。如果您在会议中“对R和Aren的文本分析感兴趣,请看看R.的整洁文本挖掘。
1月13日,下午4:03:矢量不必是原子的,注意到珍妮布莱恩在她在列表中的演讲中。vectors也可以列出。因此,您可以将列表添加到数据帧中作为数据帧列。如果您添加此类复杂列,则培养四种技能:
ispectIndexComputEsimplify.她注意到,如果它是一个琐碎的话,你会注意到,但是,带有列表列的数据帧是有效的数据框架.Aside:ListViewer包具有良好的HTML小部件,用于查看复杂数据。然而,一般来说,如果您想处理此问题,您将继续学习Purrr包装,但她说。她在https://jennybc.github.io/purrr-tutorial/张贴了一个教程。
1月13日,下午3:26:如果您无所可做,当您“重新编码时,请首先以函数参数思考数据,请建议IT Security Pro和R软件包作者Bob Rudis。这使您的代码友好(如%>%)。
而且,管道组应设计为做一件事。
对我来说是新的:HTTR包具有Stop_For_Status()函数,可将HTTP错误转换为R错误或警告。Rudis说,它为其他编码是一个有用的概念。
1月13日,下午2:39:你想将数据从API拉到R吗?Rstudio的Amanda Gadrow发布了几个有用的(和评论的)示例脚本在https://github.com/ajmcoqui/webapisr。
1月13日,下午2:03:对我来说是新的:commoncrawl.org,一个爬网的项目和“可以被任何人访问和分析。”将该项目的文件加载到火花中后,可以使用SparkWarc软件包将其读入R.会议演示显示的内容,如在包含超过1亿条记录的文件中查找最使用过的关键字和JavaScript库。分析Web内容的有趣方法。演示幻灯片处于bit.ly/2ilaqmi。
1月13日,下午2:00:Sparklyr版本0.5现在正在CRAN上,适用于使用R和Apache Spark数据的人有用。根据周五下午的演讲,根据演讲,有几个新功能和改善的兼容性。
1月13日,下午1:53:你在r中的数据库吗?今天下午来自Rstudio会议的一些消息:该公司计划为Rstudio版本1.1计划包含一个标签,其中包含有关数据库连接的信息,以及对话框,以轻松地重新建立先前使用的连接。您“LL也能够查看系统上当前可用的数据库驱动程序,表和模式。
1月13日,下午1:45:R数据库包是名为ODBC的作品,用于使用与ODBC驱动程序的DBI标准的接口与数据库连接。.它尚未在CRAN上,但您可以使用devtools :: install_github安装(“rstats-db / Odbc”)。已经有一个RodBc包的R,但ODBC旨在更快,并提供对日期的本机支持等物品。会议演示应包括参数化查询,并将SQL查询添加到R Markdown文档和交互式闪亮应用程序。如果您将数据从数据库中提取数据,则会让您的东西可能想要调查。
1月13日,下午12:20:Rstudio有两个不同的软件包,用于创建仪表板。 FlexDashboard适用于已经知道的人(或愿意学习)R Markdown。 ShinyDashboard是针对知道或愿意学习R的人的人,这有一个令人难倒的学习曲线。
1月13日,11:18:如果你想在闪亮的情况下做点什么,那么略微的反应性,例如也返回先前值的函数?闪亮的创造者Joe Cheng表示,他在目前叫做Rxtools的包裹上努力“试图将一些习语包装起来”,为我们那些没有深入的,敞口的闪亮知识。他警告说,这个套餐仍在开发上,所以不要将它用于任何生产工作;它可能会重新命名,以免混淆Microsoft反应性。但与此同时,您应该能够在GitHub上找到它。
1月13日,11:02:如果您发现自己在闪亮时复制和粘贴代码,请停止并询问自己,如果您应该使用反应表达,Joe Cheng建议。如果您“重新熟悉闪亮搜索的反应表达,请从闪亮的开发人员会议上讨论这一点。警告:不要只搜索闪亮的视频。他说,那些赢得了“T获得你想要的东西(而实际上可能会给你的Porn结果页面。)
1月13日,10:18 AM:建筑闪亮仪表板会话的教程文件在:devtools :: install_github(“jcheng5 / dashtutorial”)。然后运行dashtutorial :: summon()以获取锻炼文件。
1月13日,9:57 AM:Tidyverse Creator Hadley Wickham:“导入数据是无聊或可怕的。导出数据很无聊。“(就为什么他为数据导入写入包,但不会导出。)
1月13日,上午9:56:哈德利被问及遇到潜在地造成十足恋人与十足怀疑论者之间的裂缝的关注。“老实说,我花了很多时间担心的东西,”他说。“我担心它有点儿,”他承认,但他说他通过帮助人们在数据分析中得到了帮助的动机。他想创造他称之为“成功的坑” - 人们可以容易地进入。
他说,俗气是人们开始的好地方,但是知道“为了做真正的工作,你需要走出十分之一。”
1月13日,上午9:52:它目前又笨拙地轻松查看R列表和JSON数据。哈德利说这是一个问题Rstudio想要解决。
1月13日,上午9:40:哈德利威克哈姆:函数应该计算某些东西或做某事。它永远不应该做两者。
1月13日,上午9:26:你喜欢在r中使用%>%pipes吗?威克姆表示,R功能适合管道:第一个参数是“数据”数据在函数系列中的类型是相同的类型